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文艺 复兴 以 降 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规 范 ， 使 西方 国家 在 自然 科学 的 
各 个 领域 取得 了 垄断 性 的 优势 ;也 正 是 这 样 的 传统 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 
家 辈出 、 独 领 风 骚 。 在 商业 化 的 进程 中 ， 美国 的 产业 界 与 教育 界 越 来 越 紧 密 地 结合 ， 计 算 机 
学 科 中 的 许多 泰山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科学 著作 ， 不 仅 壁 
划 了 研究 的 范畴 ， 还 揭示 了 学 术 的 源 变 ， 既 遵循 学 术 规 范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 ， 
因 年 月 的 流逝 而 减退 。 

近年 ， 在 全 球 信息 化 大 潮 的 推动 下 ， 我 国 的 计算 机 产业 发 展 迅猛 ， 对 专业 人 才 的 需求 日 
益 迫 切 。 这 对 计算 机 教育 界 和 出 版 界 既 是 机 遇 ， 也 是 挑战 ; 而 专业 教材 的 建设 在 教育 战略 上 
显得 举足轻重 。 在 我 国信 息 技术 发 展 时 间 较 短 的 现状 下 ， 美 国 等 发 达 国 家 在 其 计算 机 科学 发 
展 的 几 十 年 间 积 淀 和 发 展 的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国外 优秀 计算 
机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 到 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 设 真正 的 
世界 一 流 大 学 的 必由之路 。 

机 械 工业 出 版 社 华章 公司 较 早 意识 到 “出 版 要 为 教育 服务 ”。 自 1998 年 开始 ， 我 们 就 
将 工作 重点 放 在 了 六 选 、 移 译 国 外 优秀 教材 上。 经 过 多 年 的 不 懈 努 力 ， 我 们 与 Pearson ， 
McGraw-Hill, Elsevier, MIT, John Wiley & Sons, Cengage 等 世界 著名 出 版 公司 建立 了 良好 的 
合作 关系 ， 从 他 们 现 有 的 数 百 种 教材 中 甄选 出 Andrew S. Tanenbaum, Bjarne Stroustrup, Brain 
W. Kernighan, Dennis Ritchie, Jim Gray, Afred V. Aho, John E. Hopcroft Jeffrey D. Ullman, 
Abraham Silberschatz, William Stallings, Donald E. Knuth, John L. Hennessy, Larry L. Peterson 
等 大 师 名 家 的 一 批 经 典 作品 ， 以 “计算 机 科学 丛书 ”为 总 称 出 版 ， 供 读者 学 习 、 研 究 及 珍 
藏 。 大 理 石 纹理 的 封面 ， 也 正体 现 了 这 套 从 书 的 品位 和 格调 。 

“计算 机 科学 丛书 ”的 出 版 工作 得 到 了 国内 外 学 者 的 易 力 相助 ， 国 内 的 专家 不 仅 提 供 了 
中 肯 的 选 题 指导 ， 还 不 辞 劳苦 地 担任 了 翻译 和 审 校 的 工作 ;而 原 书 的 作者 也 相当 关注 其 作品 
在 中 国 的 传播 ， 有 的 还 专程 为 其 书 的 中 译本 作 序 。 迄 今 , “计算 机 科学 丛书 ”已 经 出 版 了 近 
两 百 个 品种 ， 这 些 书 籍 在 读者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采用 为 正式 教材 和 参考 书 
籍 。 其 影印 版 “经 典 原版 书库 ”作为 姊妹 篇 也 被 越 来 越 多 实施 双语 教学 的 学 校 所 采用 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因素 使 我 们 的 
图 书 有 了 质量 的 保证 。 随 着 计算 机 科学 与 技术 专业 学 科 建 设 的 不 断 完 善 和 教材 改革 的 逐渐 深 
化 ， 教 育 界 对 国外 计算 机 教材 的 需求 和 应 用 都 将 步 人 一 个 新 的 阶段 ， 我 们 的 目标 是 尽 善 尽 
美 ， 而 反馈 的 意见 正 是 我 们 达到 这 一 终极 目标 的 重要 帮助 。 华 章 公 司 欢 迎 老 师 和 读者 对 我 们 
的 工作 提出 建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 : 
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机 器 学 习 是 计算 机 科学 发 展 最 快 的 领域 之 一 。 每 年 ， 我 们 都 看 到 新 的 应 用 ， 并 且 学 习 算 
法 的 理论 也 发 展 很 快 。 

我 十 分 高 兴 地 看 到 我 的 书 的 第 2 版 用 中 文 出 版 ， 并 就 为 翻译 所 做 出 的 努力 ， 感 谢 范 明教 
授 。 在 此 之 前 ， 范 教授 翻译 了 本 书 第 1 版 以 及 一 些 统计 学 习 和 数据 挖掘 的 名 著 。 

我 希望 我 的 书 的 中 文 读 者 发 现 本 书 是 有 益 的 ， 并 且 就 像 我 乐于 写 它 一 样 乐于 阅读 它 。 


Ethem Alpaydin 
于 伊斯坦布尔 博 阿 齐 奇 大 学 
2013 年 12 月 


Preface of the Chinese Edition 


Machine learning is one of the fastest developing fields in computer science. Every year, we are 
seeing new applications, and the theory of learning algorithms is also developing very fast. 

It gives me great pleasure to see the second edition of my book printed in Chinese, and for the 
effort in doing the translation, I would like to thank Professor Fan who previously have translated the 
first edition as well as several other well-known texts on statistics and data mining. 

I hope that the Chinese readers of my book will find it beneficial and enjoy reading it as much 


as I enjoyed writing it. 


Ethem Alpaydin 
Bogazici University, Istanbul 


December 2013 
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自从 有 计算 机 以 来 ， 人们 就 希望 计算 机 能 够 学 习 。 然 而 ， 机 器 学 习 真 正 取得 实质 性 进 
展 ， 能 够 成 功 地 解决 一 些 实际 问题 ， 并 最 终 成 为 一 个 学 科 分 支 还 是 近 20 余年 的 事 。 

对 于 许多 问题 ,我们 的 前 人 和 先行 者 已 经 知道 如 何 求解 。 例 如 ， 欧 几 里 得 告诉 我 们 可 以 
用 加 转 相 除法 求 两 个 整数 的 最 大 公约 数 ; Dijkstra 告诉 我 们 如 何 有 效 地 求 两 点 之 间 的 最 短路 
径 ; Hoare 向 我 们 展示 了 怎样 将 杂乱 无 章 的 对 象 快速 排序 …… 对 于 这 些 问题 ， 我 们 清楚 地 知 
道 求解 步骤 。 因 此 ， 让 计算 机 求解 这 些 问 题 只 需要 设计 算法 和 数据 结构 、 进 行 编程 ， 而 不 需 
要 让 计算 机 学 习 。 

还 有 一 些 问 题 ， 人 们 可 以 轻而易举 地 做 好 ， 但 是 却 无 法 解释 清楚 我 们 是 如 何 做 的 。 例 
如 ， 尽 管 桌子 千差万别 、 用 途 各 异 ， 但 是 我 们 一 眼 就 能 看 出 某 个 物体 是 否 是 桌子 ; 尽管 不 同 
的 人 的 手写 阿拉 伯 数 字 大 小 不 一 、 笔 画 粗细 不 同 ， 但 是 我 们 还 是 可 以 轻易 识别 一 个 数字 是 不 
是 8; 尽管 声音 时 大 时 小 ， 有 时 可 能 还 有 点 沙哑 ， 但 是 我 们 还 是 可 以 不 费力 气 地 听 出 熟人 的 
声音 。 诸 如 此 类 的 例子 不 胜 枚 举 。 对 于 这 些 问题 ， 我 们 不 知道 求解 步骤 。 因 此 ， 让 计算 机 来 
做 这 些 事 就 需要 让 计算 机 学 习 。 

我 们 知道 桌子 不 是 木材 和 各 种 材料 的 随机 堆砌 ， 手 写 数字 不 是 像素 的 随机 分 布 ， 熟 人 的 
声音 也 不 是 各 种 声波 的 随机 混合 。 现 实 世界 总 是 有 规律 的 。 机 器 学 习 正 是 从 已 知 实例 中 自动 
发 现 规律 ， 建 立 对 未 知 实例 的 预测 模型 ， 根 据 经 验 不 断 提 高 ， 不 断 改 进 预 测 性 能 。 

这 是 一 本 全 面 论述 机 器 学 习 这 一 主题 的 教科 书 ， 适 合作 为 高 等 院 校 计算 机 相关 专业 高 年 
级 本 科 生 和 研究 生机 器 学 习 入 门 课程 的 教材 。 该 书 涵盖 了 监督 学 习 、 贝 叶 斯 决策 理论 、 参 数 
方法 、 多 元 方法 、 维 度 归 约 、 聚 类 、 非 参数 方法 、 决 策 树 、 线 性 判别 式 、 多 层 感 知 器 、 局 部 
模型 、 隐 马尔 可 夫 模型 、 分 类 算法 评估 和 上 比较、 组合 多 学 习 器 以 及 增强 学 习 。 作 者 对 来 自 统 
计 学 、 模 式 识别 、 神 经 网 络 、 人 工 智能 、 信 号 处 理 、 控 制 和 数据 挖掘 等 不 同 领域 的 机 器 学 习 
问题 和 学 习 方 法 进行 了 统一 论述 。 

第 2 版 从 16 章 扩 展 到 19 章 ， 除 增加 3 章 外 ， 对 许多 章节 都 进行 了 改写 和 扩充 ， 以 便 反 
映 机 器 学 习 的 新 进展 。 尤 其 是 ， 核 方法 、 贝 叶 斯 估计 和 图 模型 这 三 个 在 第 1 版 只 用 几 节 介绍 
的 主题 都 各 自 扩充 成 了 一 整 章 ， 进行 了 更 深入 的 讨论 。 此 外 ,第 2 版 还 更 加 全 面 地 介绍 了 机 
器 学 习 实 验 的 设计 与 分 析 ， 这 在 同类 书籍 中 是 独 具 特 色 的 。 

第 2 版 由 范 明 翻 译 。 答 红 英 (第 1 ~6 间 ) 和 牛 常 勇 〈 第 15、17 和 18 章 ) 参加 了 第 1 
版 的 翻译 。 原 书 作 者 Ethem Alpaydin 为 第 2 版 的 中 文 版 重新 写 了 序 。 

译文 中 的 错误 和 不 当 之 处 ， 敬 请 读者 朋友 指正 。 意 见 和 建议 请 发 往 mfan@ zzu. edu. cn, 
我 们 不 胜 感激 。 


范 A 
2013 冬 于 郑州 大 学 
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机 器 学 习 使 用 实例 数据 或 过 去 的 经 验 训 练 计算 机 ， 以 优化 性 能 标准 。 当 人 们 不 能 直接 编 
写 计 算 机 程序 解决 给 定 的 问题 ， 而 是 需要 借助 于 实例 数据 或 经 验 时 ， 就 需要 学 习 。 一 种 需要 
学 习 的 情况 是 人 们 没有 专门 技术 ， 或 者 不 能 解释 他 们 的 专门 技术 。 以 语音 识别 ， 即 将 声学 语 
音信 号 转换 成 ASCI 文本 为 例 。 看 上 去 我 们 可 以 毫 无 困难 地 做 这 件 事 ， 但 是 我 们 却 不 能 解释 
我 们 是 如 何 做 的 。 由 于 年 龄 、 性 别 或 口音 的 差异 ， 不 同 的 人 读 相 同 的 词 发 音 却 不 同 。 在 机 器 
学 习 中 ， 这 个 问题 的 解决 方法 是 从 不 同 的 人 那里 收集 大 量 发 音 样本 ， 并 学 习 将 它们 映射 
到 词 。 

另 一 种 需要 学 习 的 情况 是 要 解决 的 问题 随时 间 变 化 或 依赖 于 特定 的 环境 。 我 们 希望 有 一 
个 能 够 自动 适应 环境 的 通用 系统 ， 而 不 是 为 每 个 特定 的 环境 编写 一 个 不 同 的 程序 。 以 计算 机 
网 络 上 的 包 传递 为 例 。 最 大 化 服务 质量 的 、 从 源 地 到 目的 地 的 路 径 随 网 络 流 量 的 改变 而 改 
变 。 学 习 路 由 程序 能 够 通过 监视 网 络 流量 自动 调整 到 最 佳 路 径 。 另 一 个 例子 是 智能 用 户 界 
面 ， 它 能 够 自动 适应 用 户 的 生物 特征 ， 即 用 户 的 口音 、 笔 迹 、 工 作 习 惯 等 。 

机 器 学 习 在 各 个 领域 都 有 许多 成 功 的 应 用 : 已 经 有 了 识别 语音 和 笔迹 的 商用 系统 。 零 售 
商 分 析 他 们 过 去 的 销售 数据 ， 了 解 顾客 行为 ， 以 便 改 善 顾客 关系 管理 。 金 融 机构 分 析 过 去 的 
交易 ， 以 便 预 测 顾客 的 信用 风险 。 机 器 人 学 习 优 化 它们 的 行为 ， 以 便 使 用 最 少 的 资源 来 完成 
任务 。 在 生物 信息 学 方面 ， 使 用 计算 机 不 仅 可 以 分 析 海量 数据 ， 而 且 还 可 以 提取 知识 。 这 些 
只 是 我 们 〈 即 你 和 我 ) 将 在 本 书 讨论 的 应 用 的 一 部 分 。 我 们 只 能 想象 一 下 可 使 用 机 器 学 习 
实现 的 未 来 应 用 : 可 以 在 不 同 的 路 况 、 不 同 的 天 气 条 件 下 自己 行驶 的 汽车 ， 可 以 实时 翻译 外 
语 的 电话 ， 可 以 在 新 环境 〈 例 如 另 一 个 星球 的 表面 ) 航行 的 自动 化 机 器 人 。 机 器 学 习 的 确 
是 一 个 令 人 激动 的 研究 领域 ! 

本 书 讨论 的 许多 方法 都 源 于 各 种 领域 : 统计 学 、 模 式 识 别 、 神 经 网 络 、 人 工 智能 、 信 和 号 
处 理 、 控 制 和 数据 挖掘 。 过 去 ， 这 些 不 同 领域 的 研究 遵循 不 同 的 途径 ， 侧 重点 也 不 同 。 本 书 
旨 在 把 它们 组 合 在 一 起 ， 给 出 问题 的 统一 处 理 并 提供 它们 的 解 。 

本 书 是 一 本 人 门 教 材 ， 用 于 高 年 级 本 科 生 和 研究 生 的 机 器 学 习 课程 ， 以 及 在 业界 工作 、 对 
这 些 方法 的 应 用 感 兴趣 的 工程 技术 人 员 。 预 备 知 识 是 计算 机 程序 设计 、 概 率 论 、 微 积分 和 线性 
代数 方面 的 课程 。 本 书 的 目标 是 充分 解释 所 有 的 学 习 算法 ， 使 得 从 本 书 给 出 的 方程 到 计算 机 程 
序 只 是 一 小 步 。 为 了 使 这 一 任务 更 容易 完成 ， 对 于 某 些 情 况 ， 我 们 给 出 了 算法 的 伪 代 码 。 

适当 选取 一 些 章节 ， 本 书 可 用 作 一 学 期 的 课程 。 再 额外 讨论 一 些 研 究 论文 的 话 ， 本 书 也 
可 以 用 作 两 学 期 的 课程 ， 这 时 每 章 后 的 参考 文献 将 很 有 用 。 

本 书 网 页 为 http://www. cmpe. boun. edu. tr/~ethem/i2ml/， 我 将 在 那里 提供 一 些 与 本 书 
有 关 的 信息 ， 如 勘误 表 。 我 真诚 地 欢迎 你 将 反馈 意见 发 到 我 的 邮箱 : alpaydin@ boun. edu. tr。 

我 非常 喜欢 写 这 本 书 ， 和 希望 你 能 喜欢 读 它 。 
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获得 好 想法 的 途径 是 与 有 才干 的 人 一 起 工作 ， 与 他 们 一 起 工作 也 是 一 种 乐趣 。Bogazici 
大 学 计算 机 工程 系 是 一 个 极 好 的 工作 场所 ， 在 我 写 这 本 书 时 ， 我 的 同事 们 为 我 提供 了 我 所 需 
要 的 所 有 支持 。 我 也 要 感谢 我 过 去 和 现在 的 学 生 ， 在 他 们 身上 ， 我 实际 检验 了 现在 写 进 这 本 
书 中 的 内 容 。 

在 写本 书 时 ， 我 得 到 了 土耳其 科学 院 青 年 科学 家 奖励 计划 的 资助 (EATUBA- CEBiP/ 
2001-1-1) 。 

我 特别 感谢 Michael Jordan。 对 于 他 多 年 来 的 支持 和 最 近 对 本 书 的 支持 ， 我 深 表 感谢 。 
他 针对 本 书 大 体 组 织 和 第 1 章 所 给 出 的 建议 在 内 容 和 形式 上 都 大 大 改进 了 本 书 。Taner 
Bilgiç, Vladimir Cherkassky, Tom Dietterich, Fikret Gürgen, Olcay Taner Yildiz 和 MIT 出 版 社 
的 未 留 名 审 稿 人 也 部 分 阅读 了 本 书 ， 并 提供 了 非常 宝贵 的 反馈 。 我 希望 他 们 在 注意 到 我 采纳 
了 他 们 的 建议 但 却 没 有 特别 致谢 时 ， 能 够 体会 到 我 的 感激 之 情 。 当 然 ， 书 中 的 错误 和 不 足 应 
当 由 我 个 人 负责 。 

我 的 父母 信任 我 ,我 感谢 他 们 永恒 的 爱 和 支持 。 无 论 我 何 时 需要 ，Sema Oktug 总 在 身 
边 ， 我 将 永远 感激 她 的 友谊 。 我 还 要 感谢 Hakan Unli， 在 过 去 的 几 年 中 ， 我 们 无 数 次 讨论 了 
与 生活 、 字 宙 和 万 事 万 物 相 关 的 众多 主题 。 

本 书 使 用 Chris Manning 准备 的 LATEX 宏 排 版 ， 对 此 我 很 感谢 他 。 我 要 感谢 MIT 出 版 社 
的 编辑 们 ， 以 及 Bob Prior, Valerie Geary, Kathleen Caruso, Sharon Deacon Warne, Erica 
Schultz 和 Emily Gutheinz， 感 谢 他 们 在 本 书 完成 期 间 的 不 断 支 持 和 帮助 。 
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自从 第 1 版 2004 年 问世 以 来 ， 机 器 学 习 已 经 取得 重要 进展 。 首 先 ， 在 应 用 领域 迅速 
扩展 。 现 在 ， 互 联网 相关 的 技术 ， 如 搜索 引擎 、 推 荐 系统 、 垃 圾 邮件 过 滤 和 入 侵 检测 系 
统 都 在 常规 地 使 用 机 器 学 习 。 在 生物 信息 学 和 计算 生物 学 领域 ， 由 数据 学 习 的 方法 被 越 
来 越 广泛 地 使 用 。 在 自然 语言 处 理应 用 〈 例 如 ， 机 器 翻译 ) 中 ， 我 们 看 到 越 来 越 快 地 从 
编程 的 专家 系统 过 渡 到 从 实例 文本 的 大 型 语料库 中 自动 地 学 习 。 在 机 器 人 、 医 疗 诊断 、 
语音 和 图 像 识 别 、 生 物 测 定 学 、 财 经 等 领域 , 我们 看 到 了 本 书 讨论 的 机 器 学 习 方 法 越 来 
越 多 的 应 用 。 这 些 应 用 有 时 是 在 模式 识别 的 名 义 下 ， 有 时 乔装 为 数据 挖 据 或 披 着 某 种 其 
他 外 衣 。 

其 次 ， 理 论 上 取得 了 重要 进步 。 尤 其 是 ， 核 函数 的 思想 和 使 用 核 函 数 的 核 机 器 使 得 我 们 
可 以 更 好 地 表示 问题 ， 并 且 与 使 用 梯度 下 降 训 练 的 、 具 有 S 形 隐 藏 单 元 的 多 层 感 知 器 相 比 ， 
核 机 器 的 凸 优化 工作 前 进 了 一 大 步 。 贝 叶 斯 方法 通过 选 定 适 当 的 先 验 分 布 将 专家 的 知识 添加 
到 数据 隐 含 的 知识 上 。 图 模型 允许 使 用 相互 关联 的 节点 的 网 络 表示 变量 之 间 的 依赖 ， 并 且 有 
效 地 推断 算法 使 得 我 们 可 以 查询 该 网 络 。 因 此 ， 有 必要 将 核 方法 、 贝 叶 斯 估计 和 图 模型 这 三 
个 在 第 1 版 只 用 几 节 介绍 的 主题 用 更 长 的 篇 幅 处 理 ， 扩 充 为 新 的 三 章 。 

该 领域 另 一 个 极其 重要 的 事情 是 认识 到 需要 更 好 地 设计 机 器 学 习 实 验 。 从 使 用 单个 检验 
集 到 交叉 验证 ， 再 到 配对 1 检验 ， 我们 已 经 走 了 很 长 的 路 。 这 就 是 为 什么 我 要 在 第 2 版 重 写 
统计 检验 这 一 章 ， 使 之 包含 机 融 学 习 实 验 的 设计 与 分 析 。 要 点 是 ,检验 不 应 该 是 在 所 有 运行 
都 完成 之 后 再 做 的 单独 步骤 (尽管 介绍 机 器 学 习 实 验 的 新 的 一 章 被 安排 在 本 书 最 后 ) ， 应 该 
提前 设计 实验 的 整个 过 程 、 定 义 相关 因素 、 确 定 合适 的 实验 过 程 。 这 时 并 且 只 有 这 时 才 做 实 
验 并 分 析 实 验 结果 。 

长 期 以 来 ， 人们 尤其 是 科学 界 的 年 长 者 相信 ， 要 想 使 机 器 像 我 们 一 样 有 智能 ， 即 要 想 使 
人 工 智 能 成 为 现实 ， 无论 就 一 般 而 言 还 是 特殊 地 就 计算 机 科学 而 言 ， 我 们 当前 的 知识 都 是 不 
够 的 。 大 多 数 人 都 认为 ， 我 们 需要 新 的 技术 、 新 型 材料 、 新 型 计算 装置 或 新 的 程序 设计 技 
AR, 并 且 即 便 如 此 ， 我 们 也 只 能 以 有 限 的 方式 “模拟 ”人 类 智能 的 某 些 方面 ， 而 不 可 能 完 
全 实现 人 类 的 智能 。 

我 相信 我 们 很 快 将 证 明 他 们 是 错误 的 。 我 们 最 早 在 国际 象棋 中 看 到 了 这 种 证 明 ， 并 且 
现在 我 们 正在 各 个 领域 看 到 这 种 证 明 。 有 了 足够 的 内 存 和 计算 能 力 ， 我 们 可 以 使 用 相对 
简单 的 算法 来 完成 任务 ; 这 里 的 技巧 是 学 习 ， 或 者 从 实例 数据 中 学 习 ， 或 者 使 用 增强 学 
习 通 过 试 错 学 习 。 看 来 ,〈 例 如 ， 机 器 翻译 ) 使 用 监督 学 习 并 且 更 多 的 是 非 监督 学 习 算 法 
很 快 将 会 成 为 可 能 。 对 于 许多 其 他 领域 ， 例 如 使 用 增强 学 习 的 机 器 人 无 人 导航 也 是 如 此 。 
我 相信 在 人 工 智能 的 许多 领域 这 种 态势 都 将 继续 ， 而 关键 是 学 习 。 只 要 我 们 为 机 器 提供 
足够 的 数据 (不必 是 监督 的 ) 和 计算 能 力 ， 如 果 机 器 可 以 自己 学 习 ， 我 们 则 不 需要 提出 
新 的 算法 。 
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P(X) 
p(X) 
P(X |Y) 
E[X] 
Var(X) 
Cov(X, Y) 
Corr( X, Y) 


E 


N 


“ua MS 


S 
N(u, `) 
Z 
Nal p, È) 


x ASA SRmAR AR 


随机 变量 

概率 质量 函数 ，X 是 离散 的 
概率 密度 函数 ,，X 是 连续 的 
给 定 Y, X BRRR 
随机 变量 X 的 期 望 值 
的 方差 

X 和 YY 的 协 方差 

XX 和 了 的 相关 性 


均值 

方差 

协 方差 矩阵 

均值 的 估计 

方差 的 估计 

协 方差 矩阵 的 估计 

一 元 正 态 分布 ， 均 值 为 ,方差 为 o* 

单位 正 态 分 布 : VCO, 1) 

d- 变 量 正 态 分 布 ， 均 值 向 量 为 ， 协 方差 矩阵 为 


输入 

输入 数 ( 输 入 的 维度 ) 

输出 

要 求 的 输出 

输出 数 (类 ) 

训练 实例 数 

隐藏 的 值 ， 内 落 维 ， 潜 在 因子 
隐藏 维 数 ， 洪 在 因子 数 

类 i 

训练 样本 


wwaibbt.com DOOO000 


are 


{x', rt, 


g(x|0) 
arg maxgg (x | 0) 
arg min,g (x | 0) 
E(0 |X) 
1(@ |x) 
£(6|Xx) 


1(c) 
#|c} 
5.. 


y 


x 的 集合 ， 上 标 1 遍 取 1 到 NN 
上 标 为 上 的 输入 和 期 望 输出 的 有 序 对 的 集合 


x 的 函数 ， 其 定义 依赖 于 参数 集 6 
参数 9，g 关于 它 取 最 大 值 

参数 9，g 关于 它 取 最 小 值 

样本 X 上 具有 参数 9 的 误差 函数 
样本 X 上 具有 参数 6 的 似 然 函 数 
样本 X 上 具有 参数 9 的 对 数 似 然 函 数 


如 果 c 为 真 ， 则 值 为 1， 否则 为 0 


c 为 真 的 元 素数 目 
Kronecker ô: WR i=j, W1, BWO 
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1.1 什么 是 机 器 学 习 


为 了 在 计算 机 上 解决 问题 ， 我 们 需要 算法 。 算 法 是 指令 的 序列 ， 它 把 输入 变换 成 输出 。 
例如 ， 我 们 可 以 为 排序 设计 一 个 算法 ,输入 是 数 的 集合 ， 而 输出 是 它们 的 有 序列 表 。 对 于 相 
同 的 任务 可 能 存在 不 同 的 算法 ， 而 我 们 感 兴趣 的 是 如 何 找到 需要 的 指令 或 内 存 最 少 ， 或 者 二 
者 都 最 少 的 最 有 效 算法 。 

然而 ， 对 于 某 些 任务 ， 我 们 没有 算法 ; 例如 ,我 们 没有 将 垃圾 邮件 与 正常 邮件 分 开 的 算 
法 。 我 们 知道 输入 是 邮件 文档 ， 最 简单 的 情况 是 一 份 字符 文件 。 我 还 知道 输出 应 该 是 指出 消 
息 是 否 为 垃圾 邮件 的 “是 "或 “ 否 ”， 但 是 我 们 不 知道 如 何 把 这 种 输入 变换 成 输出 。 所 谓 的 垃 
圾 邮件 随时 间 而 变 ， 因 人 而 蜡 。 

我 们 缺乏 的 是 知识 ， 作 为 补偿 我 们 有 数据 。 我 们 可 以 很 容易 地 编辑 数 以 千 计 的 实例 消息 ， 
其 中 一 些 我 们 知道 是 垃圾 邮件 ， 而 我 们 要 做 到 的 是 希望 从 中 "学 习 " 垃圾 邮件 的 结构 。 换 言 之 ， 
我 们 希望 计算 机 (机 器 ) 自动 地 为 这 一 任务 提取 算法 。 不 需要 学 习 如 何 将 数 排序 ， 因 为 我 们 已 经 
有 这 样 的 算法 ; 但 是 ， 对 于 许多 应 用 而 言 ， 我 们 确实 没有 算法 ， 而 是 有 实例 数据 。 

随 着 计算 机 技术 的 发 展 ， 我 们 现在 已 经 拥有 存储 和 处 理 海量 数据 以 及 通过 计算 机 网 络 从 
远程 站 点 访问 数据 的 能 力 。 目 前 大 多 数 的 数据 存 取 设备 都 是 数字 设备 ， 记 录 的 数据 也 很 可 
靠 。 以 一 家 连锁 超市 为 例 ， 它 拥有 遍布 全 国 各 地 的 数 百 家 分 店 ， 并 且 在 为 数 百 万 顾客 提供 数 
千 种 商品 的 零售 服务 。 销 售 点 的 终端 设备 记录 每 笔 交易 的 详细 资料 ， 包 括 日 期 、 顾 客 识别 
码 、 购 买 商品 和 数量 、 消 费 总 额 等 。 这 是 典型 的 每 日 几 个 G 字 节 的 数据 。 连 锁 超市 希望 能 
够 预测 某 种 产品 可 能 的 顾客 。 对 于 这 一 任务 ,算法 同样 并 非 是 显然 的 ; 它 随时 间 而 变 ， 因 地 
域 而 异 。 只 有 分 析 这 些 数据 ， 并 且 将 它 转 换 为 可 以 利用 的 信息 时 ， 这 些 存 储 的 数据 才能 变 得 
有 用 ， 例 如 做 预测 。 

我 们 并 不 确切 地 知道 哪些 人 倾向 于 购买 这 种 口味 的 冰淇淋 ， 或 者 这 位 作家 的 下 一 本 书 是 什 
么 ， 也 不 知道 谁 喜 欢 看 这 部 新 电影 、 访 问 这 座 城市 ， 或 点 击 这 一 链接 。 我 们 不 能 确切 地 知道 哪 
些 人 比较 倾向 于 购买 哪 种 特定 的 商品 ， 也 不 知道 应 该 向 喜欢 读 海明威 作品 的 人 推荐 哪 位 作者 。 
如 果 我 们 知道 ， 我 们 就 不 需要 任何 数据 分 析 ; 我 们 只 管 供 货 并 记录 下 编码 就 可 以 了 。 但 是 ， 正 
因为 我 们 不 知道 ， 所 以 才 只 能 收集 数据 ， 并 期 望 从 数据 中 提取 这 些 问 题 或 相似 问题 的 答案 。 

我 们 确信 存在 某 种 过 程 ， 可 以 解释 我 们 所 观测 到 的 数据 。 尽 管 我 们 不 清楚 数据 产生 过 程 
(例如 顾客 行为 ) 的 细节 ， 但是， 我 们 知道 数据 产生 不 是 完全 随机 的 。 人 们 并 不 是 去 超市 随 
机 购买 商品 。 当 人 们 买 啤酒 时 ， 也 会 买 暮 片 ， 夏天 买 冰 淇 淋 ， 而 冬天 则 为 Glihwein? 买 香 
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料 。 数 据 中 存在 确定 的 模式 。 

我 们 也 许 不 能 够 完全 识别 该 过 程 ， 但 是 我 们 相信 ， 我 们 能 够 构造 一 个 好 的 并 且 有 用 的 近 
似 ( good and useful approximation) 。 尽 管 这 样 的 近似 还 不 可 能 解释 一 切 ， 但 其 仍然 可 以 解释 
数据 的 某 些 部 分 。 我 们 相信 ， 尽 管 识 别 全 部 过 程 也 许 是 不 可 能 的 ， 但 是 我 们 仍然 能 够 发 现 某 
些 模式 或 规律 。 这 正 是 机 器 学 习 的 定位 。 这 些 模式 可 以 帮助 我 们 理解 该 过 程 ， 或 者 我 们 可 以 
使 用 这 些 模式 进行 预测 : 假定 将 来 ， 至 少 是 不 远 的 将 来 ， 情 况 不 会 与 收集 样本 数据 时 有 很 大 
的 不 同 ， 则 未 来 的 预测 也 将 有 望 是 正确 的 。 

机 器 学 习 方法 在 大 型 数据 库 中 的 应 用 称 为 数据 控 握 (data mining) 。 类 似 的 情况 如 大 量 的 
金属 氧化 物 以 及 原料 从 矿山 中 开采 出 来 ， 处 理 后 产生 少量 非常 珍贵 的 物质 。 同 样 地 ， 在 数据 
挖掘 中 ， 需 要 处 理 大 量 的 数据 以 构建 简单 有 用 的 模型 ， 例 如 有 具有 高 精度 的 预测 模型 。 数 据 挖 
掘 的 应 用 领域 非常 广泛 : 除 零售 业 以 外 ， 在 金融 业 ， 银 行 分 析 他 们 的 历史 数据 ， 构 建 用 于 信 
用 分 析 、 诈 骗 检测 、 股 票 市 场 等 方面 的 应 用 模型 ; 在 制造 业 ， 学 习 模 型 可 以 用 于 优化 、 控 制 
以 及 故障 检测 等 ;在 医学 领域 ， 学 习 程 序 可 以 用 于 医疗 诊断 等 ; 在 电信 和 领域 ,通话 模式 的 分 
析 可 用 于 网 络 优 化 和 提高 服务 质量 ; 在 科学 研究 领域 ， 比 如 物理 学 、 天 文学 以 及 生物 学 的 大 
量 数据 只 有 用 计算 机 才 可 能 得 到 足够 快 的 分 析 。 万 维 网 (World Wide Web ) 是 巨大 的 ， 并 且 
在 不 断 地 增长 ， 因 此 在 万 维 网 上 检索 相关 信息 不 可 能 依靠 人 工 完 成 。 

然而 ， 机 器 学 习 不 仅仅 是 数据 库 方面 的 问题 ， 它 也 是 人 工 智能 的 组 成 部 分 。 为 了 智能 
化 ， 处 于 变化 环境 中 的 系统 必须 具备 学 习 的 能 力 。 如 果 系 统 能 够 学 习 并 且 适 应 这 些 变 化 ， 那 
么 系统 的 设计 者 就 不 必 预 见 所 有 的 情况 ， 并 为 它们 提供 解决 方案 了 。 

机 器 学 习 还 可 以 帮助 我 们 解决 视觉 、 语 音 识别 以 及 机 器 人 方面 的 许多 问题 。 以 人 脸 识 别 
问题 为 例 : FR AT VA PE EAR BE; 即使 姿势 、 光 线 、 发 型 等 不 同 ， 我们 每 天 还 是 可 以 通过 
看 真实 的 面孔 或 其 照片 来 认 出 我 们 的 家 人 和 朋友 。 但 是 我 们 做 这 件 事 是 下 意识 的 ， 而 且 无 法 
解释 我 们 是 如 何 做 的 。 因 为 我 们 不 能 够 解释 我 们 所 具备 的 这 种 技能 ， 我 们 也 就 不 可 能 编写 相 
应 的 计算 机 程序 。 但 是 我 们 知道 ， 脸 部 图 像 并 非 只 是 像素 点 的 随机 组 合 ; 人 脸 是 有 结构 的 、 
对 称 的 。 脸 上 有 眼睛、 鼻子 和 嘴巴 ， 并 且 它 们 都 位 于 脸 的 特定 部 位 。 每 个 人 的 脸 都 有 各 自 的 
眼睛 、 鼻 子 和 嘴巴 的 特定 组 合 模式 。 通 过 分 析 一 个 人 脸 部 图 像 的 多 个 样本 ， 学 习 程 序 可 以 捕 
捉 到 那个 人 特有 的 模式 ， 然 后 在 所 给 的 图 像 中 检测 这 种 模式 ， 从 而 进行 辨认 。 这 就 是 模式 识 
别 ( pattern recognition ) 的 一 个 例子 。 

机 器 学 习 使 用 实例 数据 或 过 去 的 经 验 训 练 计算 机 ， 以 优化 某 种 性 能 标准 。 我 们 有 依赖 于 
某 些 参数 的 模型 ， 而 学 习 就 是 执行 计算 机 程序 ， 利 用 训练 数据 或 以 往 经 验 来 优化 该 模型 的 参数 
的 。 模 型 可 以 是 预测 性 的 (predictive) ， 用 于 未 来 的 预测 ， 或 者 是 描述 性 的 (descriptive) ， 用 于 
从 数据 中 获取 知识 ， 也 可 以 二 者 兼备 。 

机 器 学 习 在 构建 数学 模型 时 利用 了 统计 学 理论 ， 因 为 其 核心 任务 就 是 从 样本 中 推理 。 计 
算 机 科学 的 角色 是 双重 的 : 第 一 ， 在 训练 时 ， 我 们 需要 求解 优化 问题 以 及 存储 和 处 理 通常 所 
面 对 的 海量 数据 的 高 效 算 法 。 第 二 ， 一 旦 学 习 得 到 了 一 个 模型 ， 它 的 表示 和 用 于 推理 的 算法 
解 也 必须 是 高 效 的 。 在 特定 的 应 用 中 ， 学 习 或 推理 算法 的 效率 ， 即 它 的 空间 复杂 度 和 时 间 复 
杂 度 ， 可 能 与 其 预测 精确 度 同 样 重要 。 

现在 ， 让 我 们 更 详细 地 讨论 一 些 应 用 领域 的 例子 ， 以 进一步 深入 了 解 机 器 学 习 的 类 型 和 
用 途 。 
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1.2 机 器 学 习 的 应 用 实例 
1.2.1 学 习 关联 性 


在 零售 业 ， 例 如 超市 连锁 店 ， 机 器 学 习 的 一 个 应 用 是 购物 篮 分 析 (basket analysis), € 
的 任务 是 发 现 顾 客 所 购 商 品 之 间 的 关联 性 : 如 果 人 们 在 购买 商品 了 时 也 通常 购买 商品 Y， 而 
有 一 名 顾客 购买 了 商品 了 却 没 有 购买 商品 Y， 则 他 (或 她 ) 即 是 商品 了 的 潜在 顾客 。 一 旦 我 们 
发 现 这 类 顾客 ， 我 们 就 能 针对 他 们 实行 打包 销售 策略 。 

为 发 现 关联 规则 (association rule) ， 我 们 对 学 习 形 如 P(Y|X) 的 条 件 概率 感 兴趣 ， 其 中 
下 是 我 们 知道 的 顾客 已 经 购买 的 商品 或 商品 集 ， 了 表示 在 条 件 式 下 可 能 购买 的 商品 。 

假定 考察 已 有 的 数据 ， 计 算得 到 P(chips | beer) =0.7， 那 么 我 们 就 可 以 定义 规则 : 

购买 啤酒 (beer) 的 顾客 中 有 70% AEE T H (chips). 

我 们 也 许 想 要 区 分 不 同 的 顾客 。 针 对 这 个 问题 ， 我 们 需要 估计 PCY |X, D), HF DE 
顾客 的 一 组 属性 ， 如 性 别 、 年 龄 、 婚 姻 状 况 等 ， 这 里 假定 我 们 已 经 得 到 了 这 些 属 性 信息 。 如 
果 是 考虑 书店 而 不 是 超市 的 销售 问题 ， 则 商品 就 可 能 是 书 或 作者 等 。 对 于 Web 门户 网 站 入 
口 问题 ， 项 对 应 着 到 Web 网 页 的 链接 ， 而 我 们 可 以 估计 用 户 可 能 点 击 的 链接 ， 并 利用 这 些 
言 息 来 预先 下 载 这 些 网 页 ， 以 取得 更 快 的 网 页 存 取 速度 。 


1.2.2 分 类 


信贷 是 金融 机 构 ( 例 如 银行 ) 借 出 的 一 笔 钱 ， 需要 连 本 带 息 偿还 ,通常 是 分 期 偿还 。 
对 银行 来 说 ， 重 要 的 是 能 够 提前 预测 贷款 风险 。 这 种 风险 是 客户 不 履行 义务 和 不 全 额 还 
款 的 可 能 性 。 既 要 确保 银行 获 利 ， 又 要 确保 不 会 因 提供 超出 客户 财力 的 贷款 而 给 客户 带 
来 不 便 。 

在 信用 评分 (credit scoring) (Hand 1998 ) 中 ， 银 行 要 计算 在 给 定 信贷 额度 和 客户 信息 情 
况 下 的 风险 。 客 户 信息 包括 我 们 已 经 获取 的 数据 以 及 与 计算 客户 财力 相关 的 数据 ， 即 收入 、 
存款 、 担 保 、 职 业 、 年 龄 、 以 往 经 济 记录 等 。 银 行 有 以 往 贷款 的 记录 ， 包 括 客 户 数据 以 及 贷 
款 是 否 偿还 。 通 过 这 类 特定 的 申请 数据 ， 我 们 可 以 推断 出 一 般 规 则 ， 表 示 客 户 属性 及 其 风险 
性 的 关联 性 。 也 就 是 说 ， 机 器 学 习 系 统 用 一 个 模型 来 拟 合 过 去 的 数据 ， 以 便 能 够 对 新 的 申请 
计算 风险 ， 从 而 决定 接受 或 拒绝 该 项 申请 。 

这 是 一 个 分 类 ( classification ) 问题 的 例子 ， 这 里 有 两 个 类 : 低 风险 客户 和 高 风险 客户 。 
客户 信息 作为 分 类 器 的 输入 (input) ， 分 类 器 的 任务 是 将 输入 指派 到 其 中 的 一 个 类 。 

利用 以 往 数据 进行 训练 后 ， 学 习 得 到 的 规则 可 能 具有 如 下 形式 

IF income > 6, AND savings > 6, THEN low-risk ELSE high-risk 

其 中 9, 和 9, 是 合适 的 值 (参见 图 1-1)。 这 是 判别 式 (discriminant) 的 一 个 例子 ， 它 是 将 不 同 
类 的 样本 分 开 的 函数 。 

有 了 这 样 的 规则 ， 其 主要 用 途 就 是 预测 (prediction) : 一 旦 我 们 拥有 拟 合 以 往 数据 的 规 
则 ， 如 果 未 来 与 过 去 类 似 ， 那 么 我 们 就 能 够 对 新 的 实例 做 出 正确 的 预测 。 如 果 给 定 一 个 新 的 
具有 特定 收入 (income) 和 存款 (savings ) 的 申请 ， 我 们 就 可 以 很 容易 地 判断 出 它 是 低 风险 


ww ai bobt.com DOOO000 





(low-risk ) 还 是 高 风险 (high-risk) 了 。 











a A 
tte 
© 
© 
© 
hT 高 风险 
© © 
a ô 
98 
| 


图 1-1 训练 数据 集 示 例 ， 其 中 每 个 圆圈 对 应 一 个 数据 实例 ， 输 入 值 在 对 应 的 坐标 上 ， 符 号 则 指示 
着 类 别 。 为 简单 起 见 ， 输 入 只 包括 客户 的 收入 (income) 和 存款 (savings ) 两 种 属性 ， 两 个 类 
分 别 为 低 风险 (“+”) 和 高 风险 (”- ”) 。 图 中 还 显示 了 分 隔 两 类 样本 的 判别 式样 例 


在 某 些 情况 下 ， 我 们 可 能 不 希望 做 0/1( 低 风险 /高 风险 ) 类 型 的 判断 ， 而 是 希望 计算 
一 个 概率 值 P(Y|1X)， 其 中 X 是 顾客 属性 ,，Y 是 0 或 1， 分别 表示 低 风 险 和 高 风险 。 从 这 
个 角度 来 看 ,我 们 可 以 将 分 类 看 作 学 习 从 XX 到 了 Y 的 关联 性 。 于 是 ， 给 定 X=x， 如 果 有 
P(Y=1|X=x) =0.8， 则 我 们 就 说 该 客户 为 高 风险 的 可 能 性 有 80% ,或 者 等 价 地 说 该 客户 
为 低 风 险 的 可 能 性 有 20% 。 然 后 ,我 们 可 以 根据 可 能 的 收益 和 损失 来 决定 接受 或 拒绝 这 笔 
贷款 业务 。 

机 器 学 习 在 模式 识别 (pattern recognition) 方 面 有 很 多 的 应 用 。 其 中 之 一 是 光学 字符 识别 
(optical character recognition ，OCR) ， 即 从 字符 图 像 识 别 字符 编码 。 这 是 一 个 多 类 问题 的 例 
子 ， 类 与 我 们 想 要 识别 的 字符 一 样 多 。 特 别 有 趣 的 是 手写 体 字符 的 识别 问题 。 人 们 有 不 同 的 
书写 风格 ; 字体 有 大 有 小 ， 倾 斜 角度 不 同 ， 还 有 用 钢笔 或 用 铅笔 之 别 ， 所 以 同一 个 字符 可 能 
会 有 许多 种 可 能 的 图 像 。 尽 管 书写 是 人 类 的 发 明 创造 ， 但 是 我 们 还 没有 像 人 类 读者 一 样 准确 
的 系统 。 我 们 没有 字符 “ A” 的 形式 化 描述 ， 涵 盖 所 有 “A” 而 不 涵盖 任何 非 “*A”。 没 有 这 种 形 
式 化 描述 ， 我 们 就 要 从 书写 者 那里 取样 ， 从 这 些 实例 中 学 习 关 于 “ A” 的 定义 。 然 而 ， 尽 管 我 
们 不 知道 是 什么 因素 使 得 一 个 图 像 被 识别 为 “A”， 但 是 我 们 确信 所 有 这 些 不 同 的 “A” 的 图 像 
都 具有 某 些 共同 的 特征 ,这 正 是 我 们 希望 从 实例 中 提取 的 。 我 们 知道 ， 图 像 不 只 是 随机 点 的 
集合 ， 它 是 笔画 的 集合 ， 并 且 是 有 规律 的 ， 通 过 学 习 程序 我 们 能 够 捕获 这 些 规律 。 

阅读 文本 时 ,我 们 能 够 利用 的 一 个 因素 是 人 类 语言 的 元 余 性 。 词 是 字符 的 序列 
(sequence) ， 并 且 相 继 的 符号 不 是 独立 的 ， 而 是 被 语言 的 词 所 约束 。 这 有 好 处 ， 即 便 有 一 个 
符号 不 能 识别 ， 我 们 仍 可 以 读 出 词 t?e? 。 根 据 语言 的 语法 和 语义 ， 这 种 上 下 文 的 依赖 性 还 





名 ”这 里 ,“?" 表 示 不 能 识别 的 符号 。 





译 者 注 
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可 能 出 现在 词 和 句子 之 间 等 较 高 的 层次 上 。 目 前 有 用 于 学 习 序 列 和 对 这 种 依赖 性 建 模 的 机 器 
学 习 算法 。 

对 于 人 脸 识别 (face recognition) ， 输 入 是 人 脸 图 像 ， 类 是 需要 识别 的 人 ， 并 且 学 习 程 序 
应 当 学 习 人 脸 图 像 与 身份 之 间 的 关联 性 。 这 个 问题 比 OCR 更 困难 ， 原 因 是 人 脸 会 有 更 多 的 
类 ， 输 入 图 像 也 更 大 一 些 ， 并 且 人 脸 是 三 维 的 ,不 同 的 姿势 和 光线 等 都 会 导致 图 像 的 显著 变 
化 。 另 外 ， 对 于 特定 人 脸 的 输入 也 会 出 现 问题 ， 比 如 说 眼镜 可 能 会 把 眼睛 和 眉毛 遮 住 ， 胡 子 
可 能 会 把 下 巴 盖 住 等 。 

对 于 医学 诊断 (medical diagnosis) ， 输 入 是 关于 患者 的 信息 ， 而 类 是 疾病 。 输 入 包括 患 
者 的 年 龄 、 性 别 、 既 往 病史 、 目 前 症状 等 。 当 然 ， 患 者 可 能 还 没有 做 过 某 些 检查 ， 因 此 这 些 
输入 将 会 缺失 。 检 查 需 要 时 间 ， 还 可 能 要 花 很 多 钱 ， 而 且 也 许 还 会 给 患者 带 来 不 便 。 因 此 ， 
除非 我 们 确信 检查 将 提供 有 价值 的 信息 ， 和 否则 我 们 将 不 对 患者 进行 检查 。 在 医学 诊断 的 情况 
下 ， 错 误 的 诊断 结果 可 能 会 导致 我 们 采取 错误 的 治疗 或 根本 不 进行 治疗 。 在 不 能 确信 诊断 结 
果 的 情况 下 ， 分 类 器 最 好 还 是 放弃 判定 ， 而 等 待 医学 专家 来 做 决断 。 

在 语音 识别 (speech recognition) ， 输 入 是 语音 ， 类 是 可 以 读 出 的 词汇 。 这 里 要 学 习 的 是 
从 语音 信号 到 某 种 语言 的 词汇 的 关联 性 。 由 于 年 龄 、 性 别 或 口音 方面 的 差异 ， 不 同 的 人 对 于 
相同 词汇 的 读音 不 同 ， 这 使 得 语音 识别 问题 相当 困难 。 语 音 识别 的 另 一 个 特点 是 其 输入 信号 
是 时 态 的 (temporal) ， 词 汇 作 为 音素 的 序列 实时 读 出 ， 而 且 有 些 词汇 的 读音 会 较 长 一 些 。 

语音 信息 的 作用 有 限 ， 并 且 与 光学 字符 识别 一 样 ， 在 语音 识别 中 ,“ 语 言 模型 " 的 集成 
是 至 关 重 要 的 ， 而 且 提 供 语言 模型 的 最 好 方法 仍然 是 从 实例 数据 的 大 型 语料库 中 学 习 。 机 器 
学 习 在 自然 语言 处 理 (natural language processing) 方 面 的 应 用 与 日 俱 增 。 垃 圾 邮件 过 滤 就 是 一 
种 应 用 ， 其 中 垃圾 邮件 的 制造 者 为 一 方 ， 过 滤 者 为 男 一 方 ， 一 直 都 在 寻找 越 来 越 精巧 的 方法 
以 便 超越 对 方 ， 也 许 最 吸引 人 的 是 机 器 翻译 (machine translation) 。 经 历 了 数 十 年 手工 编写 翻 
译 规则 的 研究 之 后 ， 最 近 人 们 认识 到 最 有 希望 的 方法 是 提供 大 量 翻译 文本 实例 对 ， 并 且 让 程 
序 自动 地 提取 一 个 字符 串 映 射 到 男 一 个 字符 串 的 规则 。 

生物 测定 学 (biometrics) 使 用 人 的 生理 和 行为 特征 来 识别 或 认证 人 的 身份 ， 需 要 集成 来 
自 不 同形 态 的 输入 。 生 理 特征 的 例子 是 面部 图 像 、 指 纹 、 虹 膜 和 手掌 ; 行为 特征 的 例子 是 签 
字 的 力度 、 嗓 音 、 步 态 和 击 键 。 与 通常 的 鉴别 过 程 ( 照片 、 印 刷 签名 或 口令 ) 相 反 , 会 有 许 
多 不 同 的 (不 相关 的 ) 输 入 ， 伪 造 (欺骗 ) 更 困难 ， 并 且 系统 更 准确 ， 不 会 对 用 户 太 不 方便 。 
机 器 学 习 既 用 于 针对 这 些 不 同形 态 而 构建 不 同 的 识别 器 ， 也 考虑 这 些 不 同 数据 源 的 可 靠 性 ， 
用 于 组 合 它们 的 决策 ， 以 便 得 到 接受 或 拒绝 的 总 体 决 策 。 

从 数据 中 学 习 规则 也 为 知识 抽取 (knowledge extraction) 提供 了 可 能 性 。 规 则 是 一 种 解释 
数据 的 简单 模型 ， 而 观察 该 模型 我 们 能 得 到 潜在 数据 处 理 的 解释 。 例 如 ， 一 旦 我 们 学 会 了 区 
分 低 风 险 客户 和 高 风险 客户 的 判别 式 ， 我 们 就 拥有 了 关于 低 风险 客户 特性 的 知识 。 然 后 ， 我 
们 就 能 够 利用 这 些 知 识 ， 通 过 比如 广告 等 方式 ， 更 有 效 地 争取 那些 潜在 的 低 风 险 客户 。 

机 器 学 习 还 可 以 进行 压缩 (compression ) 。 用 规则 拟 合 数据 ， 我 们 能 得 到 比 数据 更 简单 的 
解释 ， 需 要 的 存储 空间 更 少 ， 处 理 所 需 要 的 计算 更 少 。 例如， 一 旦 你 掌握 了 加 法 规则 ， 你 就 
不 必 记 忆 每 对 可 能 数字 的 和 是 多 少 。 

机 器 学 习 的 男 一 种 用 途 是 离 群 点 检测 (outlier detection) ， 即 发 现 那 些 不 遵守 规则 的 例外 
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实例 。 在 这 种 情况 下 ， 学 习 规 则 之 后 ,我 们 感 兴趣 的 不 是 规则 ， 而 是 规则 未 能 覆盖 的 例外 ， 
它们 可 能 暗示 出 我 们 需要 注意 的 异常 ， 如 诈骗 。 


1.2.3 回归 


假设 我 们 想 要 一 个 能 够 预测 二 手 车 价格 的 系统 。 该 系统 的 输入 是 我 们 认为 会 影响 到 车 价 
的 属性 信息 : 品牌 、 车 龄 、 发 动机 性 能 、 里 程 以 及 其 他 信息 。 输 出 是 车 的 价格 。 这 种 输出 为 
数值 的 问题 是 回归 (regression) 问题 。 

设 x 表示 车 的 属性 ，y 表示 车 的 价格 。 调 查 一 下 以 往 的 交易 情况 ， 我 们 能 够 收集 训练 数 
据 ， 而 机 器 学 习 程序 用 一 个 函数 拟 合 这 些 数 据 来 学 习 x 的 函数 y。 图 1-2 给 出 了 一 个 例子 ， 
其 中 对 于 w 和 wo 的 合适 值 ， 拟 合 函 数 具 有 以 下 形式 ; 

y = Wx + Wo 

回归 和 分 类 均 为 监督 学 习 (supervised learning) 问题 ， 其 中 输入 x 和 输出 y 给 定 ， 任 务 是 

学 习 从 输入 到 输出 的 映射 。 机 器 学 习 的 方法 是 ， 先 假定 某 个 依赖 于 一 组 参数 的 模型 ; 
y = g(x|0) 

其 中 ，g(*) 是 模型 ，9 是 模型 的 参数 。 对 于 回归 ，y 是 数值 ;对 于 分 类 ，y 是 类 编码 (如 0/1)。 
g(") 为 回归 函数 ,或 者 (对 于 分 类 ) 是 将 不 同类 的 实例 分 开 的 判别 式 函 数 。 机 器 学 习 程 序 优 
化 参数 9， 使 得 逼近 误差 最 小 ， 也 就 是 说 ， 我 们 的 估计 要 尽 可 能 地 接近 训练 集中 给 定 的 正确 
值 。 例如， 图 1-2 所 示 的 模型 是 线性 的 ，w 和 w 是 为 最 佳 拟 合 训练 数据 优化 的 参数 。 在 线 
性 模型 限制 过 强 的 情况 下 ， 我 们 可 以 利用 比如 二 次 函数 : 

y = wax + w,x + wo 


或 更 高 阶 的 多 项 式 ， 或 其 他 非 线性 函数 ， 为 最 佳 拟 合 优化 它们 的 参数 。 


i eo T 
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x: 里 程 
图 1-2 ”二 手 车 的 训练 数据 及 其 拟 合 函数 。 为 简单 起 见 ， 这 里 采用 线性 模型 ， 输 入 属性 也 只 有 里 程 
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回归 的 男 一 个 例子 是 对 移动 机 器 人 的 导航 。 例 如 ， 自 动 汽车 导航 。 其 中 输出 是 每 次 转动 
车 轮 的 角度 ， 使 得 汽车 前 进而 不 会 撞 到 障碍 物 或 偏离 车 道 。 这 种 情况 下 ， 输 入 由 汽车 上 的 传 
感 器 (如 视频 相机 、GCPS 等 ) 提 供 。 训 练 数据 可 以 通过 监视 和 记录 驾驶 员 的 动作 收集 。 

我 们 来 想象 回归 的 其 他 应 用 ， 这 里 我 们 试图 优化 一 个 函数 ” 。 假 设 我 们 想 要 造 一 个 焙 炒 
咖啡 的 机 器 ， 该 机 器 有 多 个 影响 咖啡 品质 的 输入 : 各 种 温度 、 时 间 、 咖 啡 豆 种 类 等 配置 。 我 
们 针对 不 同 的 输入 配置 进行 大 量 试验 ， 并 测量 咖啡 的 品质 ， 例 如 ， 根 据 消费 者 的 满意 度 测量 
咖啡 的 品质 。 为 寻求 最 优 配置 ， 我 们 拟 合 一 个 联系 这 些 输入 和 咖啡 品质 的 回归 模型 ， 并 在 当 
前 模型 的 最 优 样本 附近 选择 一 些 新 的 点 ， 以 便 寻 找 更 好 的 配置 。 我 们 抽取 这 些 点 ， 检 测 咖啡 
的 品质 ， 将 它们 加 入 训练 数据 ， 并 拟 合 新 的 模型 。 这 通常 被 称 为 响应 面 设计 (response 


surface design) 。 
1.2.4 非 监督 学 习 


在 监督 学 习 中 ， 我 们 的 目标 是 学 习 从 输入 到 输出 的 映射 关系 ， 其 中 输出 的 正确 值 已 经 由 指 
导 者 提供 。 然 而 ， 非 监督 学 习 中 却 没有 这 样 的 指导 者 ， 只 有 输入 数据 。 我 们 的 目标 是 发 现 输入 
数据 中 的 规律 。 输 入 空间 存在 着 某 种 结构 ， 使 得 特定 的 模式 比 其 他 模式 更 常 出 现 ， 而 我 们 希望 
知道 哪些 经 常 发 生 ， 哪 些 不 经 常 发 生 。 在 统计 学 中 ， 这 称 为 密度 估计 (density estimation) 。 

密度 估计 的 一 种 方法 是 聚 类 (clustering) ， 其 目标 是 发 现 输入 数据 的 簇 或 分 组 。 对 于 拥有 
老 客户 数据 的 公司 ， 客 户 数据 包括 客户 的 个 人 统计 信息 ， 及 其 以 前 与 公司 的 交易 ， 公 司 也 许 
想 知道 其 客户 的 分 布 ， 搞 清楚 什么 类 型 的 客户 会 频繁 出 现 。 这 种 情况 下 ， 聚 类 模型 会 将 属性 
相似 的 客户 分 派 到 相同 的 分 组 ， 为 公司 提供 其 客户 的 自然 分 组 ; 这 称 作 客户 市 场 划分 (cus- 
tomer segmentation) 。 一 旦 找 出 了 这 样 的 分 组 ， 公 司 就 可 能 做 出 一 些 决策 ， 比 如 对 不 同 分 组 
的 客户 提供 特别 的 服务 和 产品 等 ; 这 称 作客 户 关 系 管 理 ( customer relationship management) 。 
这 样 的 分 组 也 可 以 用 于 识别 “ 离 群 点 ”， 即 那些 不 同 于 其 他 客户 的 客户 ， 这 可 能 意味 着 一 块 
新 的 市 场 ， 公 司 可 以 进一步 开发 。 

聚 类 的 一 个 有 趣 的 应 用 是 图 像 压缩 ( image compression ) 。 在 这 种 情况 下 ， 输 入 实例 是 由 
RGB 值 表示 的 图 像 像素 。 聚 类 程序 将 颜色 近似 的 像素 点 分 到 相同 的 分 组 ， 而 这 样 的 分 组 对 
应 图 像 中 频繁 出 现 的 颜色 。 如 果 图 像 中 只 有 少数 颜色 ， 并且 我 们 用 一 种 颜色 (例如 颜色 的 平 
均值 ) 对 属于 同一 分 组 的 像素 进行 编码 ， 则 图 像 被 量化 。 假 设 像素 是 24 位 ， 表 示 1 600 万 种 
颜色 ， 但 是 如 果 只 有 64 种 主 色调 ， 那 么 对 于 每 个 像素 ,我 们 只 需要 6 位 而 不 是 24 位 。 例 
如 ， 如 果 景 象 在 图 像 的 不 同 部 分 有 多 种 不 同 的 蓝 色色 调 ， 并且 我 们 采用 它们 的 平均 值 来 表示 
所 有 这 些 蓝 色 ， 那 么 我 们 就 丢失 了 图 像 的 细节 ,但 是 赢得 了 存储 和 传送 图 像 的 空间 。 理 想 状 
态 下 ， 人 们 希望 通过 分 析 重 复 的 图 像 模 式 ( 如 纹理 、 对 象 等 ) 来 识别 更 高 层次 的 规律 性 。 这 
为 更 高 层次 、 更 简单 、 更 有 用 地 描述 景象 提供 了 可 能 ， 并 且 实 现 了 比 像素 级 更 好 的 压缩 。 如 
果 我 们 扫描 了 文档 页 ， 我 们 得 到 的 不 是 一 些 随机 的 有 /无 像素 ， 而 是 一 些 字符 的 位 图 。 这 样 
的 数据 是 有 结构 的 ， 并 且 我 们 利用 这 些 元 余 信息 找 出 数据 的 较 短 描述 :“A” 的 16 x16 的 位 
图 占 32 字 节 ， 其 ASCH 码 只 占 1 个 字 节 。 





© 感谢 Michael Jordan 提供 这 个 例子 。 
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在 文档 聚 类 (document clustring) 中， 目标 是 把 相似 的 文档 分 组 。 例 如 ， 新 闻 报道 可 以 进 
一 步 划 分 为 涉及 政治 、 体 育 、 时 尚 、 艺 术 等 子 组 。 通 常 ， HA R (bag of words) 表示; 
即 预 先 定义 N 个 词 的 词典 ， 并 且 每 份 文档 都 是 一 个 NN 维 二 值 向 量 ， 如 果 第 i 个 词 出 现在 该 文 
档 中 ， 则 其 第 i 个 分 量 取 1。 删 除 后 缀 ”- s 和 ”- ing" 等 ， 以 避免 重复 ， 并 且 不 用 诸如 "of”、 
“and ”等 不 包含 信息 的 词 。 然 后 ， 文 档 根据 它们 包含 的 相同 词 的 个 数 分 组 。 当 然 ， 如 何 选取 
词典 是 至 关 重 要 的 。 

机 器 学 习 方法 还 应 用 于 生物 信息 学 (bioinformatics) 。 在 我 们 的 基因 组 中 ，DNA 是 “生命 
的 蓝图 ”， 也 是 碱 基 即 A、G、C AIT 的 序列 。RNA 由 DNA 转录 而 来 ， 蛋 白质 由 RNA 转换 
而 来 。 蛋 白质 就 是 生命 体 和 生命 体 的 产物 。 正 如 DNA 是 碱 基 序 列 ， 蛋 白质 则 是 氨基 酸 ( 由 碱 
基 定 义 ) 序 列 。 计 算 机 科学 在 分 子 生物 学 的 应 用 领域 之 一 就 是 比 对 (alignment) ， 即 将 一 个 序 
列 与 男 一 个 序列 匹配 。 这 是 一 个 困难 的 串 匹 配 问题 ， 因 为 序列 可 能 相当 长 ， 有 很 多 模板 串 要 
进行 匹配 ， 并 且 还 可 能 会 被 删 入 、 插 入 和 置换 。 肾 类 用 于 学 习 结 构 域 (motif)， 这 是 蛋白 质 
结构 中 反复 出 现 的 氨基 酸 序列 。 结 构 域 之 所 以 令 人 感 兴趣 ， 是 因为 它们 可 能 对 应 它们 所 表征 
的 序列 内 部 的 结构 或 功能 要 素 。 比 方 说 ， 如 果 氨 基 酸 是 字母 ， 蛋 白质 是 句子 ， 那 么 结构 域 就 
像 单 词 ， 即 具有 特别 意义 、 频 繁 地 出 现在 不 同 句 子 中 的 一 串 字母 。 


1.2.5 增强 学 习 


在 某 些 应 用 中 ， 系 统 的 输出 是 动作 (action ) 的 序列 。 在 这 种 情况 下 ， 单 个 的 动作 并 不 重 
要 ， 重 要 的 是 策略 (policy) ， 即 达到 目标 的 正确 动作 的 序列 。 不 存在 中 间 状 态 中 最 好 动作 这 
种 概念 。 如 果 一 个 动作 是 好 的 策略 的 组 成 部 分 ,那么 该 动作 就 是 好 的 。 这 种 情况 下 ， 机 器 学 
习 程 序 就 应 当 能 够 评估 策略 的 好 坏 程度 ， 并 从 以 往 好 的 动作 序列 中 学 习 ， 以 便 能 够 产生 策 
略 。 这 种 学 习 方法 称 为 增强 学 习 (reinforcement learning) 算法。 

游戏 ( game playing) 是 一 个 很 好 的 例子 。 在 游戏 中 ， 单 个 移动 本 身 并 不 重要 ， 正 确 的 移 
动 序列 才 是 重要 的 。 如 果 一 个 移动 是 一 个 好 的 游戏 策略 的 一 部 分 ， 则 它 就 是 好 的 。 游 戏 是 人 
工 智能 和 机 器 学 习 的 重要 研究 领域 ， 这 是 因为 游戏 容易 描述 ， 但 又 很 难 玩 好 。 像 国际 象棋 这 
样 的 游戏 ， 其 规则 只 有 少量 的 几 条 ， 但 是 它 非 常 复杂 ， 因 为 在 每 种 状态 下 都 有 大 量 可 行 的 移 
动 ， 并 且 每 局 又 都 包含 有 大 量 的 移动 。 一 旦 有 了 能 够 学 习 如 何 玩 好 游戏 的 好 算法 ， 我 们 也 可 
以 将 这 些 算 法 用 在 具有 更 显著 经 济 效益 的 领域 。 

用 于 在 某 种 环境 下 搜寻 目标 位 置 的 机 器 人 导航 是 增强 学 习 的 另 一 个 应 用 领域 。 在 任何 时 
候 ， 机 器 人 都 能 够 朝 着 多 个 方向 之 一 移动 。 经 过 多 次 的 试 运行 ， 机 器 人 应 当 学 到 正确 的 动作 
序列 ， 尽 可 能 快 地 从 某 一 初始 状态 到 达 目 标 状 态 ， 并 且 不 会 撞 到 任何 障碍 物 。 致 使 增强 学 习 
难度 增加 的 一 个 因素 是 系统 具有 不 可 靠 和 不 完整 的 感知 信息 。 例 如 ， 装 备 视频 照相 机 的 机 器 
人 就 得 不 到 完整 的 信息 ， 因 此 该 机 器 人 总 是 处 于 部 分 可 观测 ( partially observable) 状态 ， 并 且 
应 当 将 这 种 不 确定 性 考虑 在 内 。 一 个 任务 还 可 能 需要 多 智能 主体 (multiple agents) 的 并 行 操 
作 ， 这 些 智 能 主体 将 相互 作用 并 协同 操作 ， 以 便 完 成 一 个 共同 的 目标 。 机 器 人 足球 是 这 种 情 
况 的 例子 之 一 。 


1.3 注释 
进化 是 形成 我 们 的 身体 形状 和 我 们 的 内 在 本 能 的 主要 力量 。 我 们 还 需要 终生 学 习 ， 以 改 
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变 我 们 的 行为 。 这 有 助 于 我 们 适应 进化 论 还 不 能 预测 的 环境 变化 。 在 合适 的 环境 下 ， 具 有 短 
和 暂 寿命 的 生物 体 可 能 具备 它们 所 有 天 生 的 行为 能 力 ， 但 是 上 苍 并 未 赋予 我 们 应 对 在 有 限 生命 
中 可 能 遇见 的 所 有 状况 的 能 力 。 但 是 ， 进 化 赋予 我 们 大 脑 和 学 习 机 制 ， 使 得 我 们 可 以 根据 经 
验 实现 自我 更 新 ， 从 而 适应 各 种 各 样 的 环境 。 当 我 们 在 特定 情境 下 学 习 到 最 好 的 策略 时 ， 知 
识 就 存储 在 我 们 的 大 脑 里 。 当 情境 再 现 ， 当 我 们 再 认 知 (“ 认 知 ”意味 认 出 ) 情 境 时 ,我们 就 
能 够 回忆 起 合适 的 策略 并 采取 相应 的 动作 。 不 过 ， 学 习 有 其 局 限 性 ; 就 我 们 大 脑 有 限 的 容量 
来 说 ， 也 许 有 些 东西 我 们 永远 都 不 可 能 学 会 ， 正 像 我 们 永远 不 可 能 "学 会 "长 出 第 三 只 手臂 ， 
或 是 在 脑袋 后 面 长 只 眼睛 ， 即 使 它们 是 有 用 的 我 们 也 学 不 会 。 关 于 心理 学 视角 下 的 学 习 和 认 
知 可 参看 Leahey 和 Harris 1997。 注 意 ， 与 心理 学 、 认 知 科学 以 及 神经 系统 科学 都 不 同 ， 机 
器 学 习 的 目标 并 不 是 理解 人 类 和 动物 学 习 的 过 程 ， 而 是 像 任何 的 工程 领域 一 样 ， 机 器 学 习 旨 
在 构建 一 个 有 用 的 系统 。 

几乎 所 有 的 科学 领域 都 在 用 模型 拟 合 数据 。 科 学 家 们 设计 实验 、 进 行 观 测 并 收集 数据 。 
然后 ， 通 过 找寻 能 解释 所 观测 数据 的 简单 模型， 尝试 抽取 知识 。 该 过 程 称 为 归纳 (induc- 
tion) ， 它 是 从 一 组 特别 的 示例 中 提取 通用 规则 的 过 程 。 

现在 ， 这 样 的 数据 分 析 已 经 不 能 再 依赖 人 工 完 成 了 ， 原 因 有 二 : 一 是 数据 量 巨大 ， 二 是 
能 够 做 这 种 分 析 的 人 非常 少 而 且 人 工分 析 又 很 昂贵 。 因而， 对 于 能 够 分 析 数 据 并 自动 从 中 提 
取信 息 的 计算 机 模型 ， 也 就 是 说 对 于 学 习 ， 人 们 的 兴趣 正在 不 断 地 增长 。 

下 面 章 节 中 我 们 将 要 讨论 的 方法 源 于 不 同 的 科学 领域 。 有时， 相同 的 算法 会 在 多 个 领域 
中 沿 着 各 自 不 同 的 历史 轨迹 被 独立 地 发 现 。 

在 统计 学 中 ， 从 特殊 的 观测 到 一 般 的 描述 称 为 推断 (inference) ， 而 学 习 称 为 估计 (esti- 
mation ) 。 分 类 在 统计 学 中 称 为 判别 式 分 析 ( discriminant analysis ) (McLachlan 1992; Hastie, 
Tibshirani 和 Friedman 2001 ) 。 在 计算 机 价格 低廉 并 且 数 量 充足 之 前 ， 统 计 学 家 只 能 处 理 小 样 
本 。 作 为 数学 家 ， 统 计 学 家 主要 使 用 能 够 精确 分 析 的 简单 参数 模型 。 在 工程 学 中 ， 分 类 称 为 
模式 识别 (pattern recognition) ， 方 法 是 非 参 数 的 ， 并 且 更 大 程度 是 凭借 经 验 的 (Duda、Hart 
和 Stork 2001; Webb 1999 ) 。 机 器 学 习 与 人 工 智能 (artificial intelligence ) 有关 (Russell 和 Norvig 
1995 ) ， 原 因 是 智能 系统 应 当 能 够 适应 其 环境 的 变化 。 视 觉 、 语 音 以 及 机 器 人 等 应 用 领域 都 
是 从 样本 数据 中 学 习 。 在 电子 工程 领域 ， 信 号 处 理 (signal processing) 的 研究 使 得 自 适应 计算 
机 视觉 和 语音 程序 出 现 。 其 中 ， 隐 马尔 可 去 模型 ( Hidden Markov Models, HMM) 的 发 展 对 于 
语音 识别 尤其 重要 。 

20 世纪 80 年 代 后 期 ， 随 着 VLSI 技术 的 发 展 和 制造 含有 数 千 个 处 理 器 的 并 行 硬件 的 可 
能 性 的 出 现 ， 基 于 多 处 理 单元 的 分 布 式 计算 理论 的 可 行 性 使 得 人 工 神 经 网 络 (artificial neural 
networks) 研究 领域 得 到 了 重生 ( Bishop ，1995 ) 。 随 着 时 间 的 推移 ， 人 们 认识 到 在 神经 网 络 研 
究 领 域 中 ， 大 多 数 的 神经 网 络 学 习 算 法 都 具有 其 统计 学 的 基础 (例如 多 层 感 知 器 就 是 另 一 类 
的 非 参 估 计 ) ， 因 此 模拟 人 脑 计 算 的 说 法 开始 逐渐 淡出 。 

近年 来 ， 基 于 核 的 算法 (如 支持 向 量 机 ) 日 趋 流 行 。 借 助 于 使 用 核 函数 ， 支 持 向 量 机 适 
用 于 各 种 应 用 ， 尤 其 适合 生物 信息 学 和 自然 语言 处 理 方面 的 应 用 。 如 今 ， 人 们 已 经 广泛 认识 
到 ， 对 于 学 习 而 言 ， 好 的 数据 表示 至 关 重 要 ， 而 核 函数 则 是 一 种 引进 这 种 专家 知识 的 好 
方法 。 
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最 近 ， 随 着 存储 和 连接 费用 的 降低 ， 在 因特网 上 使 用 非常 大 的 数据 集 已 经 成 为 可 能 ， 再 
加 上 廉价 的 计算 ， 已 经 使 得 在 大 量 数 据 上 运行 学 习 算法 成 为 可 能 。 在 过 去 的 几 十 年 中 ， 人 们 
一 般 相 信 ， 对 于 人 工 智能 而 言 ， 我 们 需要 新 的 范 型 、 新 的 思维 、 新 的 计算 模型 或 一 些 全 新 的 
算法 。 考 虑 到 机 器 学 习 最 近 在 各 领域 的 成 功 ， 也 许可 以 说 ， 我 们 需要 的 不 是 新 算法 ， 而 是 大 
量 数据 实例 和 在 这 些 数据 上 运行 算法 的 充足 计算 能 力 。 例 如 ， 支 持 向 量 机 源 于 势 函 数 
(potential function) ， 线 性 分 类 和 基于 最 近邻 的 方法 都 是 20 世纪 50 或 60 年 代 提 出 的 ; 那 时 ， 
我 们 只 是 没有 适合 这 些 算法 的 快速 计算 机 或 大 型 存储 器 ， 才 不 能 完全 展示 它们 的 潜力 。 可 以 
推测 ， 诸 如 机 器 翻译 ， 甚 至 规划 这 样 的 任务 都 可 以 用 这 种 相对 简单 的 算法 来 解决 ， 但 需要 在 
大 量 实例 数据 上 训练 ， 或 通过 长 时 间 试 错 运行 。 智 能 看 来 不 是 源 于 某 些 稀奇 古怪 的 公式 ， 而 
是 源 于 简单 、 直 截 了 当 的 算法 的 耐心 以 及 近乎 膏 力 的 使 用 。 

数据 挖 握 (data mining) 的 命名 来 源 于 机 器 学 习 算 法 在 商界 海量 数据 上 的 应 用 (Weiss 和 
Indurkhya 1998)。 在 计算 机 科学 领域 ， 数 据 挖掘 也 称 为 数据 库 知识 发 现 (knowledge discovery 
in databases, KDD), 

在 统计 学 、 模 式 识别 、 神 经 网 络 信号 处 理 、 控 制 、 人 工 智 能 以 及 数据 挖掘 等 不 同 领域 
中 ， 研 究 工 作 遵循 着 各 自 的 途径 ， 并 有 其 各 自 的 侧重 点 。 本 书 的 目标 是 结合 所 有 这 些 研究 重 
点 ， 以 给 出 统一 的 处 理 问题 方法 ， 并 提出 求解 方案 。 


1.4 相关 资源 
机 器 学 习 的 最 新 研究 成 果 会 发 表 在 不 同 领域 的 会 议和 期 刊 上 。 机 器 学 习 专门 的 期 刊 有 


Machine Learning( 机 器 学 习 ) 和 Journal of Machine Learning Research( 机 器 学 习 人 研究 ) 。 以 神经 
网 络 为 主 的 期 刊 有 Neural Computation (神经 计算 ) ~ Neural Networks (神经 网 络 ) 以 及 IEEE 


Transactions on Neural Networks( IEEE 神经 网 络 汇 刊 ) 。 统 计 学 方面 的 期 刊 如 Annals of Statistics 


(统计 学 年 鉴 ) 和 Journal of the American Statistical Association ( 美国 统计 学 会 杂志 ) 也 会 发 表 一 
些 机 器 学 习 方 面 的 文章 。 男 外 ，IEEE Transactions on Pattern Analysis and Machine Intelligence 
(IEEE 模式 分 析 与 机 器 智能 汇 刊 ) 也 是 机 器 学 习 研 究 性 文章 的 资源 之 一 。 

关于 人 工 智能 、 模 式 识 别 、 模 糊 逻 辑 以 及 信号 处 理 方面 的 期 刊 也 包含 机 器 学 习 方面 的 文 
章 。 以 数据 挖掘 为 主 的 期 刊 有 Data Mining and Knowledge Discovery( 数 据 控 掘 与 知识 发 现 )、 
IEEE Transactions on Knowledge and Data Engineering ( IEEE 知识 与 数据 工程 汇 刊 ) 以 及 ACM 
Special Interest Group on Knowledge Discovery and Data Mining Explorations Journal( ACM 知识 发 现 
和 数据 挖掘 特别 兴趣 组 期 刊 ) 。 

关于 机 器 学 习 方 面 的 主要 会 议 有 “ Neural Information Processing Systems” ( NIPS), “ Unc- 
ertainty in Artificial Intelligence” ( UAI) , “International Conference on Machine Learning” ( ICML) 、 
“European Conference on Machine Learning” ( ECML ) LA & “ Computational Learning Theory” 
(COLT) , “International Joint Conference on Artificial Intelligence” (IJCA1) 等 。 另 外 ， 关 于 神经 
网 络 BCU, OMNES LA Be ete Ee I, WR RT Ls TAK 
术 、 机 器 人 和 数据 挖掘 等 应 用 方面 的 会 议 ， 也 会 有 针对 机 器 学 习 的 专题 。 

因特网 上 有 很 多 数据 集 ， 致 力 于 机 器 学 习 的 研究 者 经 常 把 它们 作为 自己 研究 的 基准 。 下 
面 是 一 些 常用 的 网 址 : 
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m UCI HLR DAU ee MITAJ: http://www. ics. uci. edu/~ mlearn/MLReposi- 

tory. html 

= UCI KDD Archive: http://kdd. ics. uci. edu/summary. data. application. html 

= Statlib: http://lib. stat. cmu. edu 

= Delve; http://www. cs. utoronto. ca/~ delve/ 

此 外 ， 还 有 一 些 针 对 特定 应 用 程序 的 库 ， 例 如 ， 针 对 计算 生物 学 、 人 脸 识 别 、 语 音 识 
别 等 。 

新 的 、 更 大 的 数据 集 不 断 地 添加 到 这 些 数据 库 中 ， 特 别 是 添加 到 UCI 机 器 学 习 库 中 。 
但 是 ， 一 些 研 究 者 仍然 相信 这 些 库 的 范围 有 限 ， 不 能 反映 实际 数据 的 全 部 特征 ， 因 此 在 这 些 
库 中 数据 集 上 的 准确 性 并 不 说 明 问题 。 甚 至 可 以 说 ， 当 反复 使 用 固定 库 中 的 数据 集 ， 量 身 打 
造 新 算法 时 ， 我 们 正在 产生 针对 这 些 数据 集 的 一 组 新 的 "UCI 算法 ”。 

正如 我 们 将 在 后 面 的 章节 中 看 到 的 ， 不 同 的 算法 在 不 同 的 任务 上 运行 得 更 好 ， 因 此 最 好 
是 针对 一 种 应 用 ， 为 该 应 用 抽取 一 个 或 一 些 大 型 数据 集 ， 并 针对 特定 的 任务 ， 在 这 些 数据 集 
上 进行 算法 比较 。 

机 器 学 习 研 究 者 近期 的 文章 大 多 数 都 可 以 从 互联 网 上 找到 ，http :citeseer. ist. psu. edu 
上 的 NEC 研究 索引 是 一 个 不 错 的 研究 人 口 ， 大 部 分 作者 还 在 网 站 上 提供 了 他 们 的 算法 编码 。 
还 有 一 些 实现 各 种 机 器 学 习 算法 的 免费 软件 包 ， 其 中 Weka 特别 值得 关注 : http://www. cs. 


waikato. ac. nz/ml/weka, 
1.5 习题 


1. 设想 你 有 两 种 选择 : 可 以 传真 一 份 文档 ， 即 传送 图 像 ; 或 者 先 使 用 光学 字符 阅读 器 
(OCR) ， 然 后 再 传送 相应 的 文本 文件 。 用 对 比方 式 论述 这 两 种 方法 的 优 缺 点 ， 并 讨论 什 
么 时 候 一 种 方法 比 另 一 种 方法 更 好 。 

. 假定 我 们 正在 构建 一 个 OCR， 并 且 对 于 每 一 个 字符 ， 我 们 都 存储 该 字符 的 位 图 作为 与 逐 
个 像素 读 取 的 字符 匹配 的 模板 。 请 解释 什么 时 候 这 样 的 系统 会 失败 ” 为 什么 条 码 读 取 器 
目前 仍 在 使 用 ? 

3. 假定 我 们 的 既定 目标 是 构建 识别 垃圾 邮件 的 系统 。 请 问 是 垃圾 邮件 中 的 什么 特征 使 得 我 
们 能 够 确认 它 为 垃圾 邮件 ? 计算 机 如 何 通过 语法 分 析 来 发 现 垃圾 邮件 ? 如 果 发 现 了 垃圾 
邮件 ， 你 希望 计算 机 如 何 处 理 它 : 自动 删除 ? 转 到 男 一 个 文件 夹 ? 还 是 仅仅 在 屏幕 上 标 
亮 显示 ? 

4. 如 果 给 定 任务 是 制造 自动 出 租车 ， 请 定义 约束 。 输 入 是 什么 ”输出 是 什么 ?如何 与 乘客 
沟通 ? 需要 与 其 他 的 自动 出 租车 沟通 ， 即 需要 某 种 语言 吗 ? 

5. 在 购物 篮 分 析 中 ， 我 们 希望 找 出 产品 X 和 YY 二 者 之 间 的 依赖 关系 。 对 于 给 定 的 顾客 交易 
数据 库 ， 如 何 能 够 发 现 这 些 数 据 之 间 的 依赖 关系 ? 进而 ， 如 何 将 依赖 关系 发 现 算法 推广 
到 多 于 两 个 的 产品 之 间 ? 

6. 怎样 能 够 预测 用 户 下 一 次 将 键入 的 命令 ? 或 者 ， 怎 样 能 够 预测 Web 上 下 一 个 将 要 被 下 载 
的 网 页 ?这 样 的 预测 什么 时 候 是 有 用 的 ?什么 时 候 会 变 得 令 人 讨厌 ? 

7. 在 你 的 日 报 中 ， 为 政治 、 体 育 和 艺术 类 各 找 出 5 个 新 闻 报 道 样 例 。 阅 读 这 些 报道 ， 找 出 


N 
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每 类 报道 频繁 使 用 的 词 ， 这 些 词 可 能 帮助 我 们 区 别 不 同 的 类 别 。 例 如 ， 政 治 方面 的 新 闻 
报道 多 半 会 包含 “政府 ”、“ 经 济 衰退 ”"、“ 国会 "等 词 ， 而 在 艺术 类 的 新 闻 报 道中 可 能 包括 
“专辑 ”、“ 油 画 " 或 “剧院 ”"。 还 有 一 些 词 ( 如 “目标 ” ) 是 模棱两可 的 。 

8. 如 果 面 部 图 像 是 100 x100 的 图 像 ， 按 行 写 出 ， 则 它 是 一 个 10 000 维 向 量 。 如 果 我 们 把 图 
像 向 右 移动 一 个 像素 ， 则 将 得 到 10 000 维 空间 中 一 个 很 不 同 的 向 量 。 如 何 构 造 一 个 对 于 
这 种 扰动 具有 重 棒 性 面部 识别 器? 

9. 取 一 个 词 ， 例 如 “machine”。 写 10 次 ， 请 一 位 朋友 也 写 10 次 。 分 析 这 20 个 图 像 ， 试 找 出 
区 分 你 与 朋友 手书 的 特征 、 笔 画 类 型 、 曲 度 、 贺 和 如 何 画 点 等 。 

10. 在 估计 二 手 车 的 价格 时 ,估计 它 相 对 于 原价 的 折旧 率 ， 而 不 是 估计 它 的 绝对 价格 则 更 有 
意义 。 为 什么 ? 
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Introduction to Machine Learning，Second Edition 


监督 学 习 





我 们 从 最 简单 的 情况 开始 讨论 监督 学 习 ， 首 先 从 正 例 和 负 例 集合 中 学 习 类 别 ， 继 而 推广 
并 讨论 多 类 的 情况 ， 然 后 再 讨论 输出 为 连续 值 的 回归 。 


2. 1 由 实例 学 习 类 


假设 我 们 要 学 习 “ 家 用 汽车 "类 C。 现 在 有 一 组 汽车 实例 和 一 组 被 测 人 ， 我 们 向 被 测 人 示 
以 这 些 汽车 。 被 测 人 看 到 所 示 汽 车 并 标记 汽车 ， 将 他 们 认为 是 家 用 汽车 的 标 为 正 例 (positive 
example) ， 其 他 的 标 为 负 例 (negative example) 。 类 学 习 就 是 找寻 一 个 涵盖 所 有 的 正 例 而 不 包 
括 任何 负 例 的 描述 。 通 过 这 些 ， 我 们 可 以 做 预测 : 给 定 一 辆 我 们 以 前 从 未 见 过 的 汽车 ， 检 查 
学 习 得 到 的 描述 ， 我们 就 可 以 判断 这 辆 汽车 是 否 为 家 用 汽车 。 我 们 还 可 以 做 知识 提取 : 这 种 
研究 可 能 由 汽车 公司 赞助 ， 目 的 可 以 是 了 解 人 们 对 家 用 汽车 的 期 望 。 

经 过 与 该 领域 专家 的 一 些 沟 通 ， 假 定 我 们 得 到 了 一 个 结论 : 在 我 们 所 掌握 的 汽车 的 所 有 
特征 中 ， 区 别家 用 汽车 与 其 他 汽车 的 特征 是 价格 和 发 动机 功率 。 这 两 个 属性 就 是 类 识别 器 的 
输入 (input) 。 注 意 ， 当 我 们 决定 采用 这 种 特殊 输入 表示 (input representation) 时 ， 我 们 忽略 
其 他 属性 ， 将 它们 看 作 是 不 相关 的 。 尽 管 有 人 可 能 认为 诸如 座位 数量 、 车 身 颜色 等 属性 对 于 
辩 别 车 型 也 很 重要 ， 但 是 这 里 为 了 简单 起 见 ， 我 们 只 考虑 价格 和 发 动机 功率 。 

我 们 假设 价格 为 第 一 个 输入 属性 x ( 比如 以 








美元 计算 ) ， 发 动机 功率 为 第 二 个 输入 属性 x,( 比 3| 
如 以 立方 厘米 计 发 动机 排 量 ) 。 这 样 ， 每 辆 汽车 F 
就 可 以 用 两 个 数值 来 表示 $ e 6 
x= [5] 213 + 9S a ĉa n 
而 它 的 标号 表示 汽车 的 类 型 a ? 5 
1 wRr ZF pl 
i OC ees oo ta. * 
每 辆 汽车 用 一 个 这 种 有 序 对 (zx，r) 来 表示 ， Ə 
而 训练 集中 包括 N 个 这 样 的 实例 
X= (ee (2.3) xi n: 价格 
其 中 , t 用 于 标记 训练 集中 的 各 个 汽车 实例 ， 它 
不 表示 时 间或 任何 类 似 的 序 。 图 2-1 “家 用 汽车 "类 的 训练 集 。 其 中 每 个 


点 代表 一 个 汽车 实例 ,点 的 坐标 值 
分 别 表示 汽车 的 价格 和 发 动机 功率 。 
“+ "表示 正 例 (家 用 汽车 ),“-" 表 


现在 ,我 们 的 训练 数据 可 以 绘制 在 二 维 空间 
(x1，x2) 上， 其 中 每 个 实例 1 是 一 个 数据 点 ， 坐 


ERI (xi, x), HKA (BERN) h r 给 定 ( 参 示 负 例 ( 非 家 用 汽车 ) ， 即 其 他 类 型 
见 图 2-1) 。 的 汽车 
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通过 进一步 与 专家 讨论 和 分 析 数 据 ， 我 们 有 理由 相信 ， 对 于 家 用 汽车 ， 其 价格 和 发 动机 
功率 应 当 是 在 某 个 确定 的 范围 内 

(pi < 价格 <p,)AND(e, 友 发 动机 功率 <e) (2.4) 

其 中 pi, po, e 和 e, 为 适当 的 值 。 这样, Hy + 

(2.4) 假 定 类 C 是 价格 - 发 动机 功率 空间 中 的 矩形 B 

(参见 图 2-2) 。 E 

式 (2.4) 确 定 了 假设 类 (hypothesis class) H š 

( 即 矩 形 的 集合 ) ， 我 们 相信 C 是 从 中 抽取 的 。 学 “ 


习 算 法 应 当 找 到 一 个 特定 的 假设 (hypothesis)h e © 
31{， 尽 可 能 地 通 近 Co 日 


尽管 专家 定义 了 假设 类 ， 但 是 他 却 不 能 说 出 
参数 值 是 什么 。 换 名 话说， 尽管 我 们 选 定 了 了， 
但 是 我 们 却 不 知道 哪个 特定 的 he 7 等 于 或 最 接 | :9 
EC, 然而， 一 旦 我 们 把 注意 力 局 限于 这 个 假设 | | 














类 ， 学 习 类 就 归结 为 较 简单 的 问题 一 找 出 定义 p, ares 
的 4 个 参数 。 
图 2-2 假设 类 的 实例 。 家 用 汽车 类 是 价格 


我 们 的 目标 是 找 出 he H， 它 与 C 尽 可 能 类 
似 。 假 设 h 对 实例 x 进行 预测 ， 使 得 
h(x) = h PRATER AER (2.5) 
wR h Hx D A A 
实际 上 我 们 并 不 知道 C(x) ， 因 此 也 无 法 评估 h(x) 与 C(x) 的 匹配 程度 。 我 们 所 拥有 的 
是 训练 集 X， 它 是 所 有 可 能 的 x 的 一 个 小 子 集 。 经 验 误差 (empirical error) 是 hh 的 预测 值 
(prediction) 与 X 中 给 定 的 预期 值 (required value ) 
不 同 的 训练 实例 所 占 的 比例 。 对 于 给 定 的 训练 集 
X, Bit h 的 误差 是 


E(h|X) = D1(h(x') žr) (2.6) 


Ep, a 5 时 1(a 6) 为 1,， 当 a=b 时 1(a # 
b) 为 0( 参 见 图 2-3)。 

在 我 们 的 例子 中 ， 假 设 类 9 是 所 有 可 能 的 矩 
形 的 集合 。 每 个 四 元 组 (pi pr, et, e2) Ma LH 
中 的 一 个 假设 4， 而 我 们 需要 选择 其 中 最 好 的 一 
个 ; 换 句 话说 ， 给 定 训练 集 ， 我们 需要 找 出 这 四 7 += a 


AR PLES lil PS IE 











个 参数 的 值 ， 使 得 它 涵盖 所 有 的 正 例 而 不 包括 任 和” ny 价格 
何 的 负 例 。 注 意 ， 如 果 x, 和 x, 是 实数 ， 则 存在 无 “图 2-3 C 是 实际 的 类 , h 是 我 们 的 诱导 候 
穷 多 个 满足 上 述 条 件 ， 也 就 是 说 ， 对 于 这 些 h 设 。C 为 1 而 为 0 的 点 为 假 负 ，C 
误差 为 零 。 但 是 ， 给 定 一 个 接近 于 正 例 和 负 例 为 0 而 为 1 的 点 为 假 正 。 其 他 点 ， 
边界 的 某 个 未 来 实例 ， 不 同 的 候选 假设 可 能 做 出 即 真正 和 真 负 ， 都 被 正确 地 分 类 
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AS VAS HUM. CELE AL generalization) 问题 ， 即 我 们 的 假设 对 不 在 训练 集中 的 未 来 实例 的 分 
类 的 准确 率 如 何 。 

一 种 可 能 的 策略 是 找 出 最 特殊 的 假设 (most specific hypothesis)S， 它 是 涵盖 所 有 正 例 而 
不 包括 任何 负 例 的 最 紧凑 的 矩形 (参见 图 2-4)。 a 
这 样 就 得 出 一 个 假设 h=S， 作 为 我 们 的 诱导 类 x | 
(induced class) 。 注 意 实际 的 类 C 可 能 会 比 S 更 ER 
大 但 绝 不 会 更 小 。 最 一 般 的 假设 (most general 2 
hypothesis) G 是 涵盖 所 有 正 例 而 不 包括 任何 负 例 | 
的 最 大 矩形 (参见 图 2-4) 。 对 于 任何 介 于 S$ 和 G 
之 间 的 he XH，h 为 无 误差 的 有 效 假设 ， 称 作 与 
训练 集 相 容 (consistent) ， 并 且 这 样 的 疡 形成 解 空 L 
i (version space) 给 定 另 一 个 训练 集 ，S、C、 解 
空间 、 参 数 ， 因 此 学 习 得 到 的 假设 可 能 不 同 。 

实际 上 ， 依 赖 于 训练 集 和 假设 类 ， 可 能 存在 : ; - 
BAS, 和 G6;， 它 们 分 别 形成 5- 集 和 G- 集 。5- 集 ee Mi 
中 的 每 个 假设 都 与 所 有 的 实例 相 容 ， 并 且 不 存在 图 2-4 $ 是 最 特殊 的 假设 ，C 是 最 一 般 的 假设 
更 特殊 的 相 容 假设 。 类 似 地 ，C- 集 中 的 每 个 假设 都 与 所 有 的 实例 相 容 ， 并 且 不 存在 更 一 般 的 
相 容 假设 。 这 两 个 集合 形成 边界 集 ， 而 它们 之 间 的 任何 假设 都 是 相 容 的 ， 并 且 是 解 空间 的 一 
部 分 。 存 在 一 个 称 作 候选 删除 的 算法 ， 随 着 逐个 看 到 训练 实例 ， 它 增 量 地 更 新 5- 集 和 C- 集 ， 
参见 Mitchell 1997。 我 们 假定 X 足 够 大 ， 则 存在 唯一 的 S 和 C。 

给 定 X， 我 们 可 以 找到 S 或 6， 或 解 空间 中 的 任意 h， 并 将 它 作为 我 们 的 假设 h。 直 观 
ib, hh 应 该 选取 5 与 6 的 中 间 ， 这 将 增 大 边缘 (margin) ， 而 边缘 是 边界 和 与 它 最 近 的 实例 之 
间 的 距离 (参见 图 2-5) 。 为 了 使 我 们 的 误差 函数 在 具有 最 大 边缘 的 h 上 最 小 化 ， 我 们 应 该 选 
择 这 样 的 误差 (损失 ) 函数 ， 它 不 仅 检查 实例 是 否 在 边界 的 正确 一 侧 ， 而 且 还 要 指出 实例 离 
边界 多 远 。 也 就 是 说 ， 取 代 返 回 0 或 1 的 h(x)， 我 们 需要 一 个 返回 携带 x 到 边界 距离 度量 
值 的 假设 ， 并 且 需 要 一 个 使 用 该 值 、 不 同 于 检查 相等 性 1(.) 的 损失 函数 。 

在 某 些 应 用 中 ， 错 误 决策 的 代价 可 能 很 高 ， 并 且 任 何 S 和 G 之 间 的 实例 都 是 不 确定 的 
(doubt) 实例 ， 由 于 缺乏 数据 支持 ， 这 些 不 确定 实例 无 法 被 确定 地 标注 。 在 这 种 情况 下 ， 系 
统 将 拒绝 考虑 (reject) 这 些 实例 ， 并 留待 人 类 专家 判定 。 

这 里 ， 我 们 假定 Xf 包含 C， 即 存在 he FH， 使 得 E(h |X) 为 0。 给 定 假设 类 4H， 可 能 存 
在 不 能 学 习 C 的 情况 ， 即 不 存在 he 71， 使 得 误差 为 0。 因 此 ， 对 于 任何 的 应 用 ,我们 都 需 
要 确信 7 有 足够 的 柔性 ,或 H 具 有 足够 的 “能 力 ” 学 习 C。 


2.2 VC 维 











假定 我 们 有 一 个 数据 集 ， 包含 NN 个 点 。 这 NN 个 点 可 以 用 2 种 方法 标记 为 正 例 和 负 例 。 
因此 ,NN 个 数据 点 可 以 定义 2" 种 不 同 的 学 习 问 题 。 如 果 对 于 这 些 问 题 中 的 任何 一 个 ， 我 们 
都 能 够 找到 一 个 假设 he 9 将 正 例 和 负 例 分 开 ， 那 么 我 们 就 称 3{ 散 列 (shatter)N 个 点 。 也 就 
是 说 ， 可 以 用 个 点 定义 的 任何 的 学 习 问 题 都 能 够 用 一 个 从 42 中 抽取 的 假设 无 误差 地 学 习 。 
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可 以 被 开 散 列 的 点 的 最 大 数量 称 为 和 的 VC 维 (Vapnik- Chervonenkis dimension), ， 记 为 
VC( XH)， 它 度量 假设 类 的 学 习 能 力 (capacity)。 

在 图 2-6 中 ,我 们 可 以 看 到 ， 轴 平行 的 矩形 能 够 散 列 二 维 空间 的 4 个 点 。 因 此 ， 当 7 为 
二 维 空间 中 轴 平 行 的 矩形 的 假设 类 时 ，VC( Hf) 等 于 4。 在 计算 VC 维 时 ， 能 找到 4 个 被 散 列 
的 点 就 够 了 ; 没有 必要 去 散 列 二 维 空间 中 任意 4 个 点 。 例 如 ， 位 于 同一 直线 上 的 4 个 点 不 能 
被 矩形 散 列 。 然 而 ， 我 们 无 法 在 二 维 空间 的 任何 位 置 设 置 5 个 点 ,使 得 对 于 所 有 可 能 的 标 
记 ， 一 个 矩形 能 够 分 开 正 例 和 负 例 。 

















xi x: 价格 x) 
图 2-5 为 了 获得 最 佳 分 离 ， 我 们 选择 具有 最 大 图 2-6 HPT HRB RAT, PA 
边缘 的 假设 。 带 阴影 的 实例 是 定义 (或 支 显示 了 禾 盖 两 个 点 的 矩形 
撑 ) 边 缘 的 实例 ; 可 以 删除 其 他 实例 ， 而 
不 会 影响 h 


也 许 VC 维 看 起 来 比较 悲观 ， 它 告诉 我 们 使 用 矩形 作为 假设 类 ,我 们 只 能 学 习 包 括 4 
个 点 的 数据 集 。 能 够 学 习 含有 4 个 点 的 数据 集 的 学 习 算 法 不 是 很 有 用 。 然 而 ， 这 是 因为 
VC 维 独 立 于 数据 实例 的 概率 分 布 。 在 实际 生活 中 ， 世 界 是 平滑 变化 的 ， 在 大 多 数 时 间 相 
近 的 实例 具有 相同 的 标记 ， 我 们 并 不 需要 担心 所 有 可 能 的 标记 。 有 很 多 包含 远 不 止 4 个 点 
的 数据 集 都 可 以 通过 我 们 的 假设 类 来 学 习 ( 参 见 图 2-1) 。 因 此 ， 即 便 是 具有 较 小 VC 维 的 
假设 类 也 是 有 应 用 价值 的 ， 并 且 比 那些 较 大 的 VC 维 (例如 ， 具 有 无 穷 VC 维 的 查找 表 ) 更 
可 取 。 


2.3 概率 逼近 正确 学 习 

使 用 最 紧凑 的 矩形 5 作为 假设 , 希望 找 出 我 们 需要 多 少 实例 。 我 们 希望 我 们 的 假设 是 
近似 正确 的 ， 即 误差 概率 不 超过 某 个 值 。 还 要 对 我 们 的 假设 有 信心 ， 因 为 我 们 想 知道 我 
们 的 假设 在 大 多 数 时 间 里 都 是 正确 的 。 因 此 我 们 希望 我 们 的 假设 (以 我 们 可 以 指定 的 概 


率 ) 是 正确 的 。 
在 概率 逼近 正确 (Probably Approximately Correct，PAC) 学 习 中 ， 给 定 类 C 和 从 未 知 但 具 
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有 确定 概率 分 布 p(x*) 中 抽取 的 样本 ,我 们 希望 找 出 样本 数 N， 使 得 对 于 任意 的 5<1/2 和 


e>0, 假设 hh 的 误差 至 多 为 的 概率 至 少 为 1 -6。 


PICAh se} 21-6 


其 中 ，CAh 是 C 与 不 同 的 区 域 。 

在 这 种 情况 下 ， 因 为 $ 是 最 紧凑 的 可 能 的 矩形 ， 
C 与 h=5 之 间 的 误差 区 域 是 四 个 矩形 条 带 之 和 ( 参 
见 图 2-7) 。 我 们 希望 确保 正 例 落 在 该 区 域 (导致 错误 ) 
的 概率 最 多 为 ae。 对 于 任何 这 样 的 条 带 ， 如 果 我 们 能 够 
确保 其 概率 上 界 为 /4， 则 误差 最 多 为 4(s/4) = s。 
注意 ， 我 们 将 矩形 角 部 的 重 琶 部 分 计算 了 两 次 ， 并 
且 这 种 情况 下 总 的 实际 误差 小 于 4(es/4) 。 随 机 抽取 
的 样本 不 在 此 条 带 中 的 概率 是 1 - se/4。 所 有 N 个 独立 
抽取 的 样本 不 在 此 条 带 中 的 概率 为 (1 - a/4)"， 所 有 
N 个 独立 抽取 的 样本 不 在 任意 这 四 个 矩形 条 带 中 的 
概率 最 多 为 4(1 -ee/4)"， 我 们 希望 其 最 大 值 为 ôo 
我 们 有 不 等 式 











图 2-7 h 与 C 之 差 是 四 个 矩形 条 带 之 和 ， 


其 中 一 个 用 阴影 显示 


(1 -x) < exp[ —x] 


因此 ， 如 果 选 定 NN 和 6 满足 


4exp[ - eN/4] < ô 
则 我 们 有 4(1 - se/4) "三 5。 不 等 式 两 边 同 时 除 以 4， 再 取 ( 自然 ) 对 数 ， 并 重新 排列 各 项 ， 我 


们 得 到 
N = (4/e) log(4/8) (2:7) 
因此 ， 只 要 我 们 至 少 从 C 中 取 (4/e)log(4/6) 个 
独立 样本 ， 并 使 用 紧凑 矩形 作为 我 们 的 假设 刀 ， 则 
在 置信 概率 (confidence probability) 至 少 为 1 -6 的 情 
况 下 ， 一 个 给 定点 被 误 分 类 的 错误 概率 最 多 为 £o 
减少 5 我 们 可 以 有 任意 大 的 置信 和 度 ， 而 减少 我 们 
可 以 有 任意 小 的 误差 ， 并 且 我 们 在 不 等 式 (2.7) 中 看 
到 ， 样 本 的 数量 是 分 别 随 1/s 和 1/5 呈 线 性 和 对 数 
缓慢 增长 的 函数 。 


2.4 噪声 


嗓 声 (noise) 是 数据 中 有 害 的 异常 。 由 于 噪声 的 
存在 ， 类 的 学 习 可 能 更 加 困难 ， 并 且 使 用 简单 的 假 
设 可 能 做 不 到 零 误 差 (参见 图 2-8)。 噪 声 有 以 下 几 
种 解释 : 

a 记录 输入 属性 可 能 不 准确 ， 这 可 能 导致 数据 

点 在 输入 空间 的 移动 。 





= 


”本 


| 











图 2-8 当 有 噪声 时 ， 在 正 例 和 负 例 之 间 
不 存在 一 个 简单 的 边界 ， 使 用 简 
单 假设 也 许 不 可 能 达到 零 误差 的 
分 类 结果 。 和 矩形 是 具有 4 个 定义 
隅 角 的 参数 的 简单 假设 。 使 用 大 
量 控制 点 的 分 段 函 数 能 够 导出 任 
意 的 封闭 图 形 
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”标记 数据 点 可 能 有 错 ， 可 能 将 正 例 标记 为 负 的 ， 或 相反 。 这 种 情况 称 为 指导 嗓 声 
(teacher noise ) 。 

m 可 能 存在 我 们 没有 考虑 到 的 附加 属性 ， 而 它们 会 影响 实例 的 标注 。 这 些 附加 属性 可 
能 是 隐藏 的 (hidden) 或 潜在 的 (latent) ， 因 此 是 不 可 观测 的 。 这 些 被 忽略 的 属性 所 造 
成 的 影响 作为 随机 成 分 ， 是 “噪声 "的 一 部 分 。 

如 图 2-8 所 示 ， 当 有 噪声 时 ， 在 正 负 实 例 之 间 不 存在 简单 的 边界 ， 并 且 为 了 将 它们 分 
开 ， 我 们 需要 对 应 于 具有 更 大 能 力 的 假设 类 的 复杂 假设 。 和 矩形 可 以 用 4 个 数 定义 ， 然而 为 了 
定义 更 复杂 的 形状 ， 我 们 就 需要 具有 大 量 参数 的 更 复杂 的 模型 。 利 用 这 些 复杂 模型 ， 我 们 可 
以 更 好 地 拟 合 数据 ， 得 到 零 误差 (参见 图 2-8 中 的 曲线 图 形 ) 。 另 一 个 可 行 的 方法 是 保持 模型 
的 简单 性 并 允许 一 些 误差 的 存在 (参见 图 2-8 中 的 矩形 ) 。 

使 用 简单 的 矩形 (除非 其 训练 误差 很 大 ) 更 有 意义 ， 原 因 如 下 : 

1) 矩形 是 一 种 容易 使 用 的 简单 模型 。 容 易 检查 一 个 点 是 在 矩形 内 还 是 在 矩形 外 ， 并 且 
对 于 未 来 的 数据 实例 ， 我 们 都 可 以 容易 地 检查 它 是 正 例 还 是 负 例 。 

2) 矩形 是 一 种 容易 训练 的 简单 的 模型 ， 并 且 具 有 较 少 的 参数 。 相 对 任意 图 形 的 控制 点 
来 说 ， 比 较 容 易 找到 矩形 的 隅 角 值 。 利 用 小 规模 训练 集 ， 当 训练 实例 有 少许 差异 时 ， 我 们 预 
期 简单 模型 比 复杂 模型 变化 小 一 些 : 简单 模型 具有 更 小 的 方差 (variance)。 男 一 方面 ， 太 简 
单 的 模型 假设 更 多 、 更 严格 ,并 且 如 果 潜 在 类 并 非 那 么 简单 ， 模 型 预测 就 可 能 失败 : 较 简 单 
的 模型 具有 较 大 的 偏 倚 (bias)。 求 解 最 优 模型 相当 于 最 小 化 偏 丛 和 方差 。 

3) 矩形 是 容易 解释 的 简单 模型 。 和 矩形 简单 地 对 应 在 两 个 属性 上 定义 的 区 间 。 通 过 学 习 
简单 的 模型 ， 我 们 能 够 从 给 定 训练 集 的 原始 数据 中 提取 信息 。 

4) 如 果 输 入 数据 中 确实 存在 错误 标记 的 实例 或 噪声 ， 并 且 实 际 的 类 确实 就 是 像 矩 形 
这 样 的 简单 模型 ， 那么 由 于 和 矩形 具有 较 小 的 方差 ， 并 且 较 少 地 被 单个 实例 所 影响 ， 所 以 
尽管 简单 矩形 可 能 导致 训练 集 上 较 大 的 误差 ， 它 也 是 比 曲 线 图 形 更 好 的 分 类 器 。 我 们 说 
简单 (但 不 是 太 简 单 的 ) 模 型 会 比 复 杂 模 型 汉化 能 力 更 好 。 该 规则 就 是 著名 的 奥 克 姆 闲 刀 
规则 (Occam's razor) ， 它 是 说 较 简 单 的 解释 看 上 去 更 可 信 ， 并 且 任 何不 必要 的 复杂 性 都 应 
该 被 握 弃 。 


2.5 学 习 多 类 


在 前 面 的 家 用 汽车 例子 中 ， 我 们 有 属于 家 用 汽车 类 的 正 例 和 属于 其 他 所 有 汽车 类 别 的 负 
例 。 这 是 一 个 两 类 (two-class) 问题 。 通 常情 况 下 ,我 们 及 个 类 ，, WAH C, i=1, =, K, 
并 且 每 个 输入 实例 严格 地 属于 其 中 一 个 类 。 训 练 集 形 如 
Reig eis, 
其 中 rr 是 K 维 的 ， 并且 
be p wÑ x eC (2.8) 
0 如 果 x ec Cj 天 
一 个 例子 在 图 2-9 中 给 出 ， 其 中 实例 来 自 三 个 类 : 家 用 汽车 、 运 动 汽车 和 豪华 轿车 。 
在 用 于 分 类 的 机 器 学 习 中 ， 我 们 希望 学 习 将 一 个 类 与 所 有 其 他 类 分 开 的 边界 。 这 样 ， 我 
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们 把 K- 类 的 分 类 问题 看 作 是 个 两 类 问题 。 属 于 C; 类 的 训练 实例 是 假设 h 的 正 例 ， 属 于 所 有 其 
他 类 的 训练 实例 是 假设 的 负 例 。 因 此 , 在 天 类 的 分 类 问题 中 ,我 们 要 学 习 天 个 假设 ， 使 得 
gtx!) = [i 如 果 x e C, (2.9) 
0 ” 如果 x' e Cj Fa 
整体 经 验 误 差 对 所 有 类 在 所 有 实例 上 的 预测 取 和 : 


Elha = Y Yaa’) ri) (2. 10) 


在 理想 情况 下 ， 对 于 给 定 的 zx， 只 有 其 中 一 个 假设 六 (xz)(i=1，.…，K) 为 1， 并且 我 们 
能 够 选 定 _ 个 类 。 但 是 ， 当 没有 或 者 有 两 个 或 更 多 的 所 (z) 为 1 时， 我 们 就 无 法 选 定 一 个 
类 ， 这 是 不 确定 的 (doubt) 情况 并 且 分 类 器 要 拒绝 这 种 情况 。 





























运动 汽车 
al a 
= | Oo O 
R O = 
R | ? 
? 
A A 
- A a A 
A A A 
豪华 轿车 
家 用 汽车 
a E ES AES = 人 
价格 


图 2-9 有 三 个 类 : 家 用 汽车 、 运 动 汽车 和 豪华 轿车 。 有 三 个 归纳 的 假设 ， 每 个 假设 获 盖 一 个 类 
的 实例 而 不 包括 另外 两 个 类 的 实例 .“? 为 拒绝 区 域 ， 其 中 没有 类 或 有 多 个 类 被 选中 

在 学 习 家 用 汽车 的 例子 中 ， 我 们 只 用 了 一 个 假设 ， 并 且 只 对 正 例 样本 建 模 。 任 何 未 包括 
在 其 中 的 实例 都 不 是 家 用 汽车 。 作 为 另 一 种 选择 ， 有 时 我 们 可 能 更 倾向 于 构建 两 个 假设 ， 一 
个 是 对 正 例 ， 男 一 个 是 对 负 例 。 这 也 为 被 男 一 个 假设 所 覆盖 的 负 例 假定 一 个 结构 。 将 家 用 汽 
车 与 运动 汽车 分 开 就 是 一 个 这 样 的 问题 ， 每 个 类 都 有 其 自己 的 结构 。 这 种 处 理 的 优点 在 于 ， 
如 果 输 入 的 是 一 辆 之 华 轿 车 ， 我 们 就 能 够 通过 两 个 假设 来 判定 其 为 负 例 并 丢弃 该 输入 。 

如 果 我 们 预料 数据 集中 所 有 类 的 结构 (输入 空间 中 的 形状 ) 都 类 似 ， 则 可 以 对 所 有 的 类 
使 用 相同 的 假设 。 例 如 ， 在 手写 数字 识别 数据 集中 ， 我 们 预料 所 有 数字 都 具有 类 似 的 分 布 。 
但 是 ， 在 医疗 诊断 数据 集中 ， 例如， 我 们 有 病人 和 健康 人 两 类 ， 那 么 ， 这 两 类 可 能 具有 完全 
不 同 的 分 布 。 一 个 人 是 病人 可 能 有 不 同 原因 ， 反 映 在 输入 中 的 不 同 : 所 有 健康 的 人 都 是 类 似 
的 ， 而 每 个 病人 都 有 他 们 自己 的 病情 。 


2.6 回归 
在 分 类 问题 中 ， 给 定 一 个 输入 ， 所 产生 的 输出 是 一 个 布尔 值 ， 这 是 一 个 是 /和 否 型 答案 。 
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当 输 出 是 数值 型 的 值 时 ， 我 们 所 和 希望 学 习 的 不 是 一 个 类 C(x) e 10，1| ， 而 是 一 个 连续 函 
数 。 在 机 器 学 习 中 ， 函 数 是 未 知 的 ， 不 过 我 们 有 从 其 中 抽取 的 训练 集 

X= (xh, 
其 中 reR。 如 果 不 存在 噪声 ， 则 该 任务 是 插值 (interpolation ) 。 我 们 希望 找到 通过 这 些 点 的 
PRX f(x), (TE 

y= f(x) 
在 多 项 式 插值 (polynomial interpolation) 中 ， 给 定 入 个 点 ， 我 们 找 出 可 以 用 来 预测 任何 x 

的 输出 的 (N -1) 阶 多 项 式 。 如 果 x 落 在 训练 集中 x' 的 值 域 之 外 ， 则 该 方法 称 为 外 播 或 外 推 
( extrapolation) 。 例 如 ， 在 时 间 序 列 预测 中 ， 我 们 拥有 截至 目前 的 数据 ， 而 且 希 望 预测 未 来 
的 值 。 在 回归 (regression ) 分 析 中 ， 噪 声 添 加 到 未 知 函 数 的 输出 上 

r=f(x') +e (2.11) 
其 中 f(x) eR 是 未 知 函 数 ，e 是 随机 噪声 。 关 于 噪声 的 解释 是 ， 存 在 我 们 无 法 观察 到 的 额外 
的 隐藏 (hidden ) 变量 


r =f (x',z') (2. 12) 
其 中 z Zea PEE, REER ga) RIT Ho UR 上 的 经 验 误差 是 
Bgl) = FAT - ee P (2. 13) 


因为 "和 8&(x) 是 数值 量 ( 例 如 ， 属 于 和 ) ， 因 此 存在 定义 在 其 值 域 上 的 序 ， 并 且 我 们 可 
以 定义 值 之 间 的 距离 (distance) 为 差 的 平方 。 相 对 于 分 类 使 用 的 等 于 或 不 等 于 来 说 ， 距 离 给 
我 们 提供 了 更 多 的 信息 。 差 的 平方 是 一 种 可 以 使 用 的 误差 函数 ， 另 一 种 误差 函数 是 差 的 绝对 
值 。 在 后 续 章节 中 ， 我 们 将 会 看 到 一 些 其 他 例子 。 

我 们 的 目标 是 找到 最 小 化 经 验 误差 的 g(*)。 我 们 的 方法 又 是 相同 的 ， 我 们 对 g(*) 假 定 
一 个 的 具有 少量 参数 的 假设 类 。 如 果 假 定 g(x) 是 线性 的 ， 则 我 们 有 


g(x) = Wixi 十 … + Waxy + wo = $ wx + wo (2. 14) 
j=l 


现在 ， 再 回 到 1. 2. 3 节 的 例子 ， 在 那里 我 们 估计 一 辆 二 手 车 的 价格 。 当 时 我 们 使 用 单个 
输入 的 线性 模型 
g(x) = wix + wo (2.15) 
Hh, w, 和 w 是 需要 从 数据 中 学 习 的 参数 。w 和 wo 的 值 应 该 使 下 式 最 小 化 
E(w, MX) = aD Er- (wr +w) ]? (2. 16) 
其 最 小 点 可 以 通过 求 巨 关 于 w, 和 wo 的 偏 导数 ， 令 偏 导 数 为 0， 并 求解 这 两 个 未 知 量 来 
计算 : 
= xr — xrN 


-Ne (2.17) 


w, 


Wo = T- wx 


其 中 , x= 2 x/N, r= 2 r/N。 找到 的 直线 如 图 1-2 所 示 。 
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如 果 线 性 模型 过 于 简单 ， 它 就 会 太 受 限制 ， 导 致 大 的 近似 误差 ， 并 且 在 这 种 情况 下 ， 输 
出 可 以 取 输 入 的 较 高 阶 的 函数 ， 例 如 二 次 函数 
g(x) = wx? +wx + wo (2. 18) 
其 中 类 似 地 ， 我 们 有 参数 的 解析 解 。 当 多 项 式 的 阶 增加 时 ， 训 练 数据 上 的 误差 将 会 降低 。 但 
是 高 阶 多 项 式 关注 个 体 样本 ， 而 不 是 捕获 数据 一 般 趋势 (参看 图 2-10 中 的 六 次 多 项 式 ) A 
此 ， 当 精确 调整 的 模型 复杂 性 达到 潜在 数据 的 函数 的 复杂 度 时 ， 我 们 应 该 并 慎 行 事 。 








2 (as ga T 和 T 
1 1 i 1 i ' 
i 上 i ' ‘ 














图 2-10 拟 合 相同 的 数据 点 集 的 线性 、 二 次 和 六 次 多 项 式 。 最 高 阶 的 多 项 式 ( 六 次 多 项 式 ) 
给 出 了 正确 的 拟 合 ， 但 是 给 定 更 多 数据 ， 真 实 的 曲线 很 可 能 不 是 这 种 形状 。 二 次 
多 项 式 看 起 来 比 线性 拟 合 好 ， 它 捕获 了 训练 数据 的 走势 


2. 7 ”模型 选择 与 泛 化 
我 们 用 从 实例 学 习 布 尔 函 数 作 为 例子 开始 。 在 布尔 函数 中 ， 所 有 的 输入 和 输出 均 为 二 元 
的 。d 个 二 元 值 有 2 种 可 能 的 写法 。 因 此 ， 对 于 4 个 输入 ， 训 练 集 最 多 能 有 2° 个 样本 实例 。 
如 表 2-1 所 示 ， 其 中 的 每 一 位 都 能 标记 为 0 或 1， 因 而 对 于 4 个 输入 ， 将 有 22 个 可 能 的 布尔 
函数 。 
表 2-1 2 个 输入 存在 4 种 可 能 的 情况 和 16 种 可 能 的 布尔 函数 








每 一 个 不 同 的 训练 样本 都 会 去 掉 一 半 的 假设 ， 即 去 掉 那 些 猜测 出 错 的 假设 。 人 例如， 假定 
我 们 有 x， =0, “=l, 而 输出 为 0， 这 种 情况 就 去 掉 了 假设 hs. he 、 figs bss hys Pigs hy; Fil 
his。 这 是 观察 学 习 的 一 种 途径 ; 随 着 我 们 看 到 更 多 的 训练 样 例 ， 我 们 逐步 去 掉 那 些 与 训练 
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数据 不 一 致 的 假设 。 在 布尔 函数 的 情况 下 ， 为 了 最 终 得 到 单个 假设 ， 我 们 需要 看 到 所 有 的 
2" 个 训练 样本 。 如 果 给 定 的 训练 集 只 包含 所 有 可 能 实例 的 一 个 小 子 集 (通常 情况 就 是 如 此 )， 
也 就 是 说 ， 如 果 我 们 仅 对 少量 情况 知道 输出 应 该 是 什么 ， 则 解 是 不 唯一 的 。 看 到 N 个 样本 
实例 后 ， 还 有 22 -个 可 能 的 函数 。 这 是 一 个 不 适 定 问题 ( 记 - posed problem) ， 甚 中 仅 靠 数据 
本 身 不 足以 找到 唯一 解 。 

在 其 他 的 学 习 应 用 中 ， 在 分 类 、 回 归 中 也 存在 同样 的 问题 。 随 着 我 们 看 到 更 多 的 训练 实 
例 ， 我 们 对 潜在 函数 的 了 解 就 更 多 ， 并 且 我 们 从 假设 类 去 掉 更 多 不 一 致 的 假设 ,但 是 我 们 还 
Fa FE BL LBL. 

PORE, ， 由 于 学 习 是 一 个 不 适 定 问 题 ， 并 且 单 靠 数 据 本 身 不 足以 找到 解 ， 因 此 我 们 应 该 
做 一 些 特别 的 假设 ， 以 便 得 到 已 有 数据 的 唯一 解 。 我 们 把 为 了 使 学 习 成 为 可 能 所 做 的 假 
设 集 称 为 学 习 算法 的 归纳 偏 倚 (inductive bias)。 引 入 归纳 偏 倚 的 一 种 途径 是 假定 一 个 假设 
类 。 在 学 习 家 用 汽车 类 时 ， 存 在 着 无 限 种 将 正 例 与 负 例 分 开 的 方法 。 假 定 矩 形 是 一 种 归 
纳 偏 倚 ， 而 后 假定 最 紧 竣 的 矩形 就 是 另外 一 种 归纳 偏 倚 。 在 线性 回归 中 ,假定 线 性 函数 
也 是 一 种 归纳 偏 倚 ， 而 在 所 有 直线 中 选择 最 小 化 平方 误差 的 直线 则 是 另 一 种 归纳 偏 倚 。 

然而 ， 我 们 知道 ， 每 个 假设 类 都 有 一 定 的 能 力 ， 并 且 只 能 够 学 习 确 定 的 函数 。 使 用 具有 
更 大 能 力 、 包 含 更 复杂 的 假设 的 假设 类 ， 可 以 扩充 可 学 习 的 函数 类 。 例 如 ， 假 设 类 "两 个 
互 不 重 炙 的 矩形 的 并 "具有 更 大 的 能 力 ， 但 是 其 假设 也 更 加 复杂 。 类 似 地 ， 在 回归 分 析 中 ， 
随 着 多 项 式 的 阶 增高 ， 其 能 力 和 复杂 性 也 不 断 增加 。 现 在 的 问题 是 要 决定 在 哪里 停止 。 

因此 ， 如 果 没 有 归纳 偏 倚 ， 则 学 习 将 是 不 可 能 的 ， 而 且 现 在 的 问题 是 如 何 选择 正确 的 偏 
倚 。 该 问题 称 作 模型 选择 (model selection) ， 即 在 可 能 的 模型 了 之 间 选 择 。 对 于 这 种 问题 的 解 
答 ， 我 们 应 当 记 住 机 器 学 习 的 目标 很 少 是 去 复制 训练 数据 ， 而 是 预测 新 情况 。 也 就 是 说 ， 我 们 
希望 对 于 训练 集 之 外 的 输入 (其 正确 的 输出 并 没有 在 训练 集中 给 出 ) 能 够 产生 正确 的 输出 。 训 
练 集 上 训练 的 模型 在 多 大 程度 上 能 够 对 新 的 实例 预测 出 正确 输出 称 为 泛 化 (generalization) 。 

对 最 好 的 泛 化 来 说 ， 我 们 应 当 使 假设 的 复杂 性 与 潜在 数据 的 函数 的 复杂 性 相 匹 配 。 如 果 
7H 没有 函数 复杂 ， 例 如 ， 当 试图 用 直线 拟 合 从 三 次 多 项 式 抽取 的 数据 时 ， 则 是 欠 拟 合 
(underfitting) 。 这 种 情况 下 ， 随 着 复杂 性 的 增高 ， 训 练 误差 和 确认 误差 都 会 降低 。 但 是 ， 如 
果 3{ 太 过 复杂 ， 数 据 不 足以 约束 该 假设 ， 我 们 最 后 也 许 得 到 不 好 的 假设 /es H. lan, 4A 
两 个 矩形 拟 合 从 一 个 矩形 抽取 的 数据 时 ， 这 种 情况 就 会 发 生 。 或 者 如 果 存 在 噪声 ， 则 过 
分 复杂 的 假设 可 能 不 仅 学 习 江 在 的 函数 ， 而 且 也 学 习 数据 中 的 噪声 ， 导 致 很 差 的 拟 合 。 
例如 ， 用 六 次 多 项 式 拟 合 从 三 次 多 项 式 抽样 的 噪声 数据 时 ， 这 种 情况 就 会 发 生 。 这 称 为 
at (>) 拟 合 (overfitting) 。 在 这 种 情况 下 ， 拥 有 更 多 的 训练 数据 是 有 帮助 的 ， 但 是 只 能 达 
到 一 定 程度 。 给 定 训 练 集 和 47， 我 们 可 以 找到 最 小 化 训练 误差 的 he of, Æ, Ro He 
择 不 好 ， 则 无 论 选择 什么 样 的 he 7 都 得 不 到 好 的 泛 化 。 

我 们 可 以 引用 三 元 权衡 (triple trade-off) ( Dietterich 2003) 来 总 结 我 们 的 讨论 。 在 所 有 的 
由 实例 数据 训练 的 学 习 算法 中 ， 存 在 以 下 三 种 因素 之 间 的 平衡 : 

= 拟 合 数据 的 假设 的 复杂 性 ， 即 假设 类 的 能 力 ; 

”训练 数据 的 总 量 ; 

a 在 新 的 实例 上 的 泛 化 误差 。 
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随 着 训练 数据 量 的 增加 ， 泛 化 误差 降低 。 随 着 模型 类 好 复杂 性 的 增加 ， 泛 化 误差 先 降 
低 ， 然 后 开始 增加 。 过 于 复杂 的 的 泛 化 误差 可 以 通过 增加 训练 数据 的 总 量 来 控制 ， 但 是 只 
能 达到 一 定 程度 。 如 果 数 据 由 直线 采样 并 用 高 阶 多 项 式 拟 合 ， 则 在 周转 有 训练 数据 的 地 方 ， 
拟 合 将 被 束缚 在 该 直线 附近 ; 而 在 没有 被 训练 的 地 方 ， 高 阶 多 项 式 的 行为 可 能 难以 预测 。 

如 果 我 们 访问 训练 集 以 外 的 数据 ， 我 们 就 能 够 度量 假设 的 泛 化 能 力 ， 即 归纳 偏 倚 的 质 
量 。 我 们 通过 将 训练 集 划分 为 两 个 部 分 来 模拟 这 一 过 程 。 我 们 使 用 一 部 分 作 训练 ( 即 找 出 假 
设 ) ， 剩 下 的 部 分 称 作 验 证 集 (validation set) ， 并 用 来 检验 假设 的 泛 化 能 力 。 也 就 是 说 ， 给 定 
可 能 的 假设 类 集合 X;， 则 我 们 可 以 在 训练 集 上 拟 合 最 佳 的 he H;。 假 定 训 练 集 和 验证 集 都 
足够 大 ， 则 在 验证 集 上 最 精确 的 假设 就 是 最 好 的 假设 ( 即 具有 最 佳 归纳 偏 倚 的 假设 )。 该 过 
程 称 为 交叉 验证 (cross-validation) 。 例 如 ， 为 了 找 出 多 项 式 回 归 的 正确 的 阶 ， 给 定 多 个 不 同 
阶 的 候选 多 项 式 ， 其 中 不 同 阶 的 多 项 式 对 应 于 不 同 的 31;， 我 们 在 训练 集 上 求 出 它们 的 系数 ， 
在 验证 集 上 计算 它们 的 误差 ， 并 取 具 有 最 小 验证 误差 的 多 项 式 作 为 最 佳 多 项 式 。 

注意 ， 如 果 需 要 报告 反映 我 们 的 最 佳 模型 的 期 望 误差 的 话 ， 我 们 就 不 应 该 使 用 验证 误 
差 。 我 们 已 经 使 用 验证 集 来 选择 最 佳 模型 ， 并 且 它 实际 上 已 经 成 为 训练 集 的 一 部 分 。 我 们 需 
要 第 三 个 数据 集 一 一 检验 集 ( test set) ， 有 时 也 称 为 发 布 集 ( publication set) ， 它 包含 在 训练 或 
验证 阶段 未 使 用 过 的 数据 。 现 实生 活 也 有 类 似 的 情况 ， 例 如 我 们 选修 一 门 课程 : 老师 在 讲授 
一 门 课时 ， 课 堂上 求解 的 例题 构成 了 训练 集 ， 考 试题 目 就 是 验证 集 ， 而 我 们 在 职业 生涯 中 解 
决 的 问题 则 是 检验 集 。 

我 们 也 不 能 一 直 使 用 相同 的 训练 或 验证 集 划 分 ， 因 为 一 旦 使 用 一 次 ， 验 证 集 实际 上 就 成 
为 了 训练 数据 的 一 部 分 。 这 就 像 老 师 每 年 都 使 用 相同 的 考试 题 一 样 ， 精 明 的 学 生 会 意识 到 不 
必 听 课 ， 仅 仅 记 住 这些 问 题 的 答案 即 可 。 

一 定 要 记 住 ， 我 们 使 用 的 训练 数据 是 一 个 随机 样本 。 也 就 是 说 ， 对 于 相同 的 应 用 ， 如 果 
我 们 多 次 收集 数据 ， 则 将 得 到 稍微 不 同 的 数据 集 ， 拟 合 的 hh 也 稍微 不 同 ， 并且 具有 稍微 不 同 
的 验证 误差 。 或 者 ， 如 果 我 们 把 固定 的 数据 集 划 分 成 训练 、 验 证 和 检验 集 ， 则 根据 划分 方式 
的 不 同 ， 我 们 会 有 不 同 的 误差 。 这 些微 小 的 区 别 使 得 我 们 可 以 估计 多 大 的 差别 可 以 看 作 显 著 
的 (significant) 而 非 偶 然 的 。 也 就 是 说 ， 在 假设 类 FH; A, 之 间 进 行 选择 时 ， 我们 将 在 大 量 
训练 集 和 验证 集 上 多 次 使 用 它们 ， 并 且 检 查 h 与 h 的 平均 误差 之 差 是 否 大 于 多 个 h, 之 间 的 
平均 差 。 在 第 19 章 ， 我 们 将 讨论 如 何 设 计 机 器 学 习 实 验 ， 以 利用 有 限 的 数据 来 回答 我 们 的 
问题 (例如 ,“ 最 好 的 假设 类 是 哪个 ?”) ， 以 及 如 何 分 析 实 验 结果 ， 使 得 我 们 可 以 得 到 最 少 受 
随机 性 影响 的 、 统 计 显著 的 结论 。 


2.8 监督 机 器 学 习 算法 的 维 


现在 ， 让 我 们 来 总 结 并 归纳 上 述 要 点 。 我 们 有 样本 
X= Ix ,ri (2. 19) 
该 样本 是 独立 同 分 布 的 (independent and identically distributed, iid); 次 序 并 不 重要 ， 而 
所 有 的 实例 都 取 自 相同 的 联合 分 布 p(x，r)。t 指示 NN 个 实例 中 的 一 个 ，x' 是 任意 维 的 输入 ， 
Mir 是 相关 联 的 预期 输出 。 对 于 两 类 学 习 , r 是 0/1; 对 于 K(K 二 2) 类 问题 , r 是 一 个 K 维 
二 元 向 量 ( 其 中 恰 有 一 维 为 1!， 其 他 各 维 均 为 0) ; 在 回归 分 析 中 ,r 是 一 个 实数 值 。 
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我 们 的 目标 是 使 用 模型 g(x' | 0) RAE I, AAR. ATAA H 
标 ， 我 们 必须 做 出 三 个 决定 : 

1) 学 习 所 使 用 的 模型 ( model) ， 记 作 

g(x|0) 
其 中 ，g(:) 是 模型 ,x 是 输入 ，6 是 参数 。g(:) 定 义 假设 类 ， 而 9 的 特殊 值 示例 了 假设 类 中 
的 一 个 假设 。 例 如 ， 在 类 的 学 习 中 ， 我 们 把 矩形 当 作 模型 ， 其 4 个 坐标 值 构成 了 9。 在 线性 
回归 中 ， 模 型 是 输入 的 线性 函数 ， 其 斜率 和 截 距 是 从 数据 中 学 习 的 参数 。 模 型 ( 归纳 偏 倚 ) 
由 机 器 学 习 系 统 的 设计 者 根据 其 应 用 知识 背景 决定 ， 参 数 由 学 习 算 法 ， 利 用 取样 于 实际 应 用 
的 训练 集 而 进行 调整 。 

2) 损失 函数 (loss function)L(:)， 用 于 计算 预期 输出 与 给 定 参数 9 的 当前 值 时 我 们 对 
它 的 近似 g(x 10) 之 间 的 差 。 通 近 误 差 (approximation error ) 或 损失 (loss) 是 各 单个 实例 之 上 
的 损失 之 和 

E(@|xX) = XLC ,g(x |0)) (2. 20) 

在 输出 为 0/1 类 的 学 习 中 ,Z(') 检测 相等 或 不 等 ; 在 回归 分 析 中 ， 由 于 输出 是 数值 型 
值 ， 我 们 有 关于 距离 的 序 信 息 ， 而 且 一 种 可 能 性 是 使 用 差 的 平方 。 

3) 最 优化 过 程 (optimization procedure ) 求 解 最 小 化 近似 误差 的 07 

` = arg minE(6 |X) (2.21) 

其 中 arg min 返回 使 最 小 化 的 参数 值 。 在 回归 中 ,我 们 能 够 解析 地 求解 最 优化 问题 。 
使 用 更 复杂 的 模型 和 误差 函数 ， 我 们 需要 使 用 更 加 复杂 的 优化 方法 。 例 如 ， 基 于 梯度 的 方 
法 、 模 拟 退 火 或 遗传 算法 等 。 

为 了 做 好 上 述 工作 ， 必 须 满足 以 下 条 件 : 首先 ，g(*) 的 假设 类 应 当 足 够 大 ， 即 要 有 足够 
的 容量 ， 以 便 包 含 在 含 品 声 情况 下 产生 7 表示 的 数据 的 未 知 函 数 。 第 二 ， 必 须 有 足够 的 训 
练 数据 ， 使 得 我 们 从 假设 类 中 识别 正确 (或 足够 好 ) 的 假设 。 第 三 ， 给 定 训练 数据 ， 我 们 应 
当 有 好 的 优化 方法 ， 以 便 找 出 正确 的 假设 。 

不 同 的 机 器 学 习 方 法 之 间 的 区 别 或 者 在 于 它们 假设 的 模型 ( 假设 类 /归纳 偏 傈 ) 不 同 ， 或 
者 在 于 它们 所 使 用 的 损失 度量 不 同 ， 或 者 在 于 它们 所 使 用 的 最 优化 过 程 不 同 。 我 们 将 在 后 续 
的 章节 中 看 到 更 多 的 例子 。 


2.9 注释 


Mitchell 提出 了 解 空间 和 候选 排除 算法 ， 使 得 当 样 本 实例 依次 给 出 时 ， 可 以 增 量 地 构 
ES AC, VERA SW Mitchell 1997。 和 矩形 学 习 取 自 Mitchell 1997 的 习题 2.4。 
Hirsh(1990 ) 讨论 了 当 实 例 样 本 受到 少量 噪声 影响 时 ， 如 何 处 理解 空间 。 

有 关机 器 学 习 最 早 的 研究 工作 之 一 是 Winston(1975 ) 提出 的 “几乎 错过 ”( near miss) 思 
想 。 几 乎 错过 是 一 个 与 正 例 非常 相似 的 负 例 。 用 我 们 的 术语 ， 几 乎 错过 就 是 可 能 落 在 5 与 
C 之 间 灰 色 区 域 的 实例 ， 该 实例 将 会 影响 边缘 ， 因 而 相对 于 普通 的 正 例 和 负 例 来 说 ， 它 们 
对 学 习 可 能 更 有 用 。 靠 近 边 界 的 实例 是 定义 (或 支撑 ) 边 界 的 实例 ; 添加 或 删除 那些 被 许 
多 具有 相同 标号 包围 的 实例 则 不 会 影响 边界 。 
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与 此 相关 的 思想 是 主动 学 习 (active learning) ， 其 中 学 习 算 法 能 够 自己 生成 实例 ， 并 要 
求 被 标记 ， 而 不 像 在 其 他 学 习 算 法 中 那样 被 动 地 被 给 定 ( Angluin 1988) (参见 习题 4) 。 

VC 维 在 20 世纪 70 年 代 初 由 Vapnik 和 Chervonenkis 提出 ， 新 近 的 相关 资源 是 Vapnik 
1995 ， 其 中 他 指出 “没有 什么 比 好 的 理论 更 实用 ”。 像 在 其 他 科学 领域 一 样 ， 这 也 在 机 器 学 
习 领 域 得 到 了 证 实 。 你 不 必 急 于 使 用 计算 机 ; 你 可 以 使 用 纸张 、 铅 笔 ， 也 许 还 需要 橡皮 擦 之 
类 的 东西 来 思考 ， 节 省 自己 的 时 间 ， 避 免 无 用 的 编程 。 

PAC 模型 由 Valiant(1984) 提 出 ， 对 于 学 习 和 矩形 的 PAC 分 析 来 自 Blumer 等 (1989) 。 一 本 
涵盖 PAC 学 习 及 VC 维 的 计算 学 习 理论 的 好 教材 是 Kearns 和 Vazirani( 1994) 。 


2.10 JÆ 


1. 假定 我 们 的 假设 类 是 圆 而 不 是 矩形 。 参 数 是 什么 ? 这 种 情况 下 如 何 计算 圆 假设 的 参数 ? 
如 果 是 椭圆 又 如 何 ? 为 什么 用 椭圆 代替 圆 会 更 有 意义 ? 如 何 将 算法 推广 到 天 >2 个 类 
情况 ? 

2. 设想 我 们 的 假设 类 不 是 一 个 矩形 而 是 两 个 (或 m > 1 个) 矩形 的 并 ,请问 这 种 假设 类 优点 
何在 ?说 明 使 用 足够 大 的 mm， 任何 类 都 能 够 由 这 种 假设 类 表示 。 

3. 大 部 分 学 习 算 法 的 复杂 度 都 是 训练 集 的 函数 。 你 能 提出 一 个 发 现 元 余 实例 的 过 滤 算 法 吗 ? 

4. 如 果 我 们 拥有 能 够 给 任何 实例 * 提供 标记 的 指导 者 ， 那 么 我 们 应 当 在 哪里 选择 x， 以 便 用 
较 少 的 询问 来 进行 学 习 ? 

5. 在 公式 (2. 13) 中， 我 们 对 实际 值 与 估计 值 之 差 的 平方 求 和 。 该 误差 函数 是 使 用 最 频繁 的 
误差 函数 ,但 它 只 是 可 行 的 误差 函数 之 一 。 由 于 它 对 差 的 平方 求 和 ， 所 以 它 对 于 离 群 点 
不 是 鲁 棒 的 。 为 了 实现 鲁 棒 回归 (robust regression) ， 更 好 的 误差 函数 是 什么 ? 

6. 请 推导 式 (2. 17)。 

7. 假定 我 们 的 假设 类 是 直线 的 集合 ， 并 且 我 们 利用 直 ai 
ZEHEAP FF EAS HA, TA E HEE R A E E f, 
并 将 负 例 留 在 矩形 外 (参见 图 2-11)。 证 明 直线 的 
VC 维 为 3。 

8. 证 明 在 二 维 空间 中 ,三 角形 假设 类 的 VC 维 为 7。 n 
(提示 : 为 了 最 佳 分 割 ， 最 好 在 某 贺 上 设置 7 AEE 
离 的 点 。) Ai 

9. 假定 像 习 题 7 那样 ， 假 设 类 是 直线 的 集合 。 写 一 个 图 2-11 直线 分 割 正 例 样本 与 负 例 样 本 
误差 函数 ， 它 不 仅 最 小 化 误 分 类 数 ， 而 且 也 最 大 化 边缘 。 

10. 噪声 的 一 个 来 源 是 标号 错误 。 你 能 提出 一 种 方法 ， 找 出 很 可 能 是 误 标 记 的 数据 点 吗 ? 
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贝 叶 斯 决策 定理 





我 们 讨论 在 不 确定 情况 下 决策 的 概率 理论 框架 。 在 分 类 中 ， 贝 叶 斯 规则 用 来 计算 类 的 概 
率 。 我 们 将 讨论 推广 到 怎样 做 出 合理 的 决策 将 期 望 风险 最 小 化 。 我 们 还 讨论 从 数据 中 学 习 关 
联 规则 。 


3.1 引言 


训练 计算 机 使 之 根据 数据 进行 推断 是 统计 学 和 计算 机 科学 的 交叉 领域 ， 其 中 ， 统 计 学 家 
提供 由 数据 推断 的 数学 框架 ， 而 计算 机 科学 家 研究 推断 方法 在 计算 机 上 如 何 有 效 地 实现 。 

数据 来 自 一 个 不 完全 清楚 的 过 程 。 将 该 过 程 作为 随机 过 程 建 模 表明 我 们 缺乏 知识 。 也 许 
该 过 程 是 确定 性 的 ， 但 是 因为 我 们 没有 获取 关于 它 的 完全 知识 的 途径 ， 所 以 我 们 把 它 作 为 一 
个 随机 过 程 建 模 ， 并 且 用 概率 理论 来 分 析 它 。 说 到 这 ， 在 继续 阅读 本 章 之 前 先 跳 到 附录 ， 温 
习 基 本 的 概率 知识 也 许 是 一 个 好 主意 。 

投 硬币 是 一 个 随机 的 过 程 ， 因 为 我 们 不 能 够 预测 任意 一 次 投 币 结果 是 正面 还 是 反面 
(这 就 是 为 什么 我 们 投 币 、 买 彩票 或 者 买 保险 的 原因 )。 我 们 只 能 谈论 下 一 次 投 币 是 正面 
还 是 反面 的 概率 。 有 证 据 显示 ， 如 果 我 们 取得 一 些 额外 的 数据 ， 如 硬币 的 确切 成 分 ， 它 
的 最 初 位 置 ， 投 币 的 力量 和 投 币 的 方向 ， 何 处 以 及 如 何 接 住 等 ， 则 投 币 的 准确 结果 就 是 
可 以 预测 的 。 

我 们 不 能 获取 的 那些 额外 的 数据 称 为 不 可 观测 的 变量 (unobservable variable) 。 在 投 币 的 
这 个 例子 中 ， 唯 一 可 观测 的 变量 (observable variable) ANWAR. Hz 表示 不 可 观测 的 变 
量 , x 表示 可 观测 的 变量 ， 事 实 上 我 们 有 

x = f(z) 
其 中 ,f(:) 是 一 个 确定 性 函数 ， 它 定义 不 可 观测 数据 的 输出 。 因 为 我 们 不 能 用 这 种 方式 对 该 
过 程 建 模 ， 所 以 我 们 定义 输出 为 指明 该 过 程 、 由 概率 分 布 P(X=x) 抽 取 的 随机 变量 。 

投 币 的 结果 是 正面 或 是 反面 ， 而 我 们 定义 一 个 随机 变量 ,在 两 个 值 中 取 值 。 SX =1 代 
表 投 币 的 结果 是 正面 ,X=0 代表 投 币 结果 是 反面 。X 服从 伯 努 利 分 布 ， 其 中 参数 pm 是 投 币 
结果 为 正面 的 概率 。 

P(X=1)=p 并 EP(X =0) =1-P(X =1) =1-p, 

假设 要 预测 下 一 次 投 币 的 结果 。 如 果 我 们 知道 po 的 值 ， 则 当 po > 0.5 时 ， 预 测 将 是 正 
面 ， 否 则 是 反面 。 这 是 因为 ， 如 果 选 择 更 可 能 的 情况 ， 则 错误 的 概率 ， 即 1 减 去 选择 的 概 
率 ， 将 会 最 小 。 如 果 这 是 一 个 me =0.5 的 公平 投 币 ， 则 我 们 没有 比 总 是 选择 正面 或 者 我 们 自 
己 做 公平 投 币 更 好 的 预测 手段 ! 

如 果 我 们 不 知道 P(X)， 并 且 想 从 给 定 的 样本 估计 它 ， 就 需要 统计 学 知识 了 。 我 们 有 一 
个 样本 XX， 包含 由 可 观测 变量 * 的 概率 分 布 ( 记 作 p(x)) 抽 取出 的 样 例 。 目 的 是 使 用 样本 xX 
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地 








构造 一 个 它 的 近似 P(x) 。 
在 投 币 例子 中 ,样本 包含 了 N 次 投 币 的 结果 。 然 后 利用 XX， 我 们 可 以 估计 poo po 是 唯一 
定义 该 分 布 的 参数 。po 的 估计 是 
pe #| 结果 为 正面 的 投 币 } 
#| 投 币 | 
使 用 数值 随机 变量 ， 如 果 投 币 的 结果 是 正面 ， 则 x' 为 1， 和 否则 为 0。 给 定 样本 | 正面 ， 正 
H, iE, 反面， 正面, Ri, Rit, 正面， emt, Wr={1, 1, 1, 0, 1, 0, 0, 1, 1}, 
并 且 





M- 





6 
9 


3.2 分 类 


在 1.2.2 节 ， 我 们 讨论 了 信用 评分 。 在 那里 我 们 看 到 ， 根 据 过 去 的 交易 ， 银 行 的 某 些 客 
户 是 低 风险 的 ， 因 为 他 们 还 清 了 贷款 并 且 银 行 从 他 们 那里 获 利 ; 其 他 客户 是 高 风险 的 ， 因 为 
他 们 不 能 偿还 贷款 。 分 析 这 些 数据 ， 我 们 想 学 习 “ 高 风险 客户 " 类， 使 得 未 来 有 新 的 贷款 申 
请 时 ， 我 们 可 以 检查 申请 者 是 否 符合 “高 风险 客户 "类 的 描述 ， 并 据 此 决定 接受 还 是 拒绝 该 
申请 。 使 用 关于 申请 的 知识 ， 我 们 假定 有 两 种 信息 是 可 观测 的 。 我 们 观测 它们 是 因为 我 们 有 
理由 相信 它们 为 我 们 提供 了 客户 信用 信息 。 例 如 ， 我 们 假定 我 们 观测 客户 的 年 收入 和 存款 ， 
它们 分 别 用 随机 变量 X, AX, 表示 。 

可 以 断言 ， 如 果 我 们 能 够 获得 客户 的 其 他 知识 ， 比 如 关于 客户 经 济 状况 的 全 部 细节 和 全 
部 知识 ， 他 /她 的 意图 、 道 德 规范 等 ， 则 我 们 可 以 确定 地 计算 出 客户 是 " 低 风险 客户 "还 是 
“高 风险 客户 ”。 但 是 ， 这 些 是 不 可 观测 的 ， 而 使 用 我 们 能 够 观测 的 信息 ， 客 户 的 信用 可 以 
FARM ARE X=[X,, X] 下 的 伯 努 利 随机 变量 C 表示 ， 其 中 C =1 表示 高 风险 客户 , C =0 
表示 低 风险 客户 。 如 果 我 们 知道 PCC |X, X), WAA X, =x, AX, =x, 的 新 申请 到 达 
时 ， 我 们 可 以 


=] = x > . 
选择 人 如 果 P(C = 1|x,,x,) >0.5 
C=0 否则 
或 等 价 地 
T wR P(C =1|x,%,)>P(C =0|«,,x,) (3.1) 
C=0 否则 


错误 的 概率 是 1 -max(P(C=1|xi，x,)，P(C=0|x,，x;))。 这 个 例子 与 抛 硬币 的 例 

子 类 似 ， 只 是 伯 努 利 随 机 变量 C 是 在 两 个 其 他 观测 变量 条 件 下 的 随机 变量 。 我 们 用 x 表示 

观测 变量 向 量 x = [x,，x,]"。 于 是 ,问题 是 要 能 够 计算 P(C |x)。 使 用 贝 叶 斯 规则 ， 它 可 以 
表示 为 

p(C |x) = pe El (3.2) 

P(C =1) 称 为 C 取 值 1 的 先 验 概率 (prior probability) 。 在 我 们 的 例子 中 ， 它 对 应 客户 是 
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高 风险 客户 的 概率 ， 而 不 管 x 取 什么 值 。 称 它 为 先 验 概率 ， 是 因为 它 是 我 们 看 到 观测 量 x 之 
前 就 获得 的 关于 C 值 的 知识 ， 满 足 
P(C =0)+P(C=1)=1 

p(x 1C) 称 为 类 似 然 (class likelihood) ， 是 属于 C 的 事件 具有 相关 联 的 观测 值 x 的 条 件 概 
率 。 在 我 们 的 例子 中 ，p(x ，x | C =1) 是 高 风险 客户 具有 =x, X =x, 的 概率 。 这 就 是 
通过 数据 我 们 得 到 的 关于 类 的 信息 。 

p(x) 是 证 据 (evidence)， 是 看 到 观测 x 的 边缘 概率 ， 无 论 它 是 正 实例 还 是 负 实 例 。 

p(x) = 2 p(x,C) =p(x|C=1)P(C=1) +p(x|C =0)P(C = 0) (3:3) 

使 用 贝 叶 斯 规则 ， 组 合 先 验 知识 和 数据 告诉 我 们 的 ， 在 看 到 观测 x 之 后 ， 计 算 概念 的 后 

验 概率 ( posterior probability)P(C |x)。 
验 x 似 然 
pa = ARM 


由 于 用 证 据 规 范 化 ， 后 验 的 和 为 1: 
P(C =0|x) +P(C =1|x) =1 
一 旦 得 到 后 验 概率 ， 我 们 就 可 以 使 用 式 (3. 1) 进行 决策 。 从 现在 起 ， 我 们 假定 我 们 知道 
先 验 和 似 然 。 在 稍 后 的 章节 中 ， 我 们 会 讨论 如 何 从 训练 样本 估计 PCC) Al p(x lC). 
在 一 般 情 况 下 ， 我 们 有 天 个 互 斥 和 穷 举 的 类 C;，i=1，…, K; 例如 ， 在 光学 数字 识别 
中 ， 输 入 是 一 个 位 图 图 像 ， 有 10 个 类 。 我 们 得 到 先 验 概率 满足 : 


P(C;) 0 并 有 J, P(C) = 1 (3.4) 


p(x | C;) 是 已 知 属于 类 C, AE x 作为 输入 的 概率 。 类 C, 的 后 验 概率 计算 如 下 
_p(x|C)P(C) p(x|C)P(C.) 


P(C, |x) = aX, K 
me) Ep | 6,)PCC) 


而 为 了 将 误差 最 小 化 ， 贝 叶 斯 分 类 器 ( Bayes’ classifier) 选择 具有 最 高 后 验 概率 的 类 ; B 
选择 C; 如 果 P(C, |x) = maxP(C, |x) (3.6) 








(3.5) 


3.3 损失 与 风险 


决策 的 好 坏 程度 或 代价 可 能 不 同 。 金 融 机 构 对 一 个 贷款 申请 人 做 出 决定 时 会 把 潜在 的 收 
益 和 损失 考虑 在 内 。 接 受 一 个 低 风 险 的 申请 人 会 增加 收益 ， 而 拒绝 一 个 高 风险 的 申请 人 会 减 
小 损失 。 错 误 地 接受 一 个 高 风险 的 申请 人 带 来 的 损失 与 错误 地 拒绝 一 个 低 风 险 的 申请 人 带 来 
的 潜在 收益 是 不 同 的 。 这 种 情况 在 其 他 领域 ， 如 医疗 诊断 、 地 震 预测 等 ， 显 得 更 加 至 关 重 要 
并 且 是 非常 不 对 称 的 。 

让 我 们 定义 动作 a, 为 把 输入 指派 到 类 C 的 决策 ， 而 Ai 为 输入 实际 属于 C 时 采取 动作 
a; 导致 的 损失 (loss) 。 采 取 动 作 a 带 来 的 期 望 风 险 (expected risk) 是 


Ra |x) = X AaP(C, |x) (3:7) 
并 且 我 们 选择 具有 最 小 风险 的 动作 : 
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选择 a 如果 Ra, |x) = minR(a, |x) (3.8) 
让 我 们 定义 K 个 动作 a;，i=1,，…， K, JEP a, 是 把 x 指派 到 C, 的 动作 。 在 0-1 损失 
(zero-one loss) 这 种 特殊 情况 下 ， 其 中 
kg = i Aei =k 
1 WRižk 
所 有 正确 的 决策 没有 损失 ， 并 且 所 有 错误 具有 相同 的 代价 。 采 取 动 作 a 的 风险 是 


天 
Ria, lx) = 》 agP(¢, |x) 
k=1 


Z PCC |) 
1 - P(C; |x) 


因为 2, PCC, Ix) = 1 。 所 以 为 了 将 风险 最 小 化 ， 我 们 选择 最 有 可 能 的 情况 。 在 后 面 章节 
中 ,为 了 简单 起 见 ， 我 们 一 直 假 定 这 种 情况 ， 并 且 选 择 具 有 最 高 后 验 的 类 ,但 是 注意 ， 这 确 
实 是 一 种 特殊 情况 ， 并 且 很 少 应 用 具有 对 称 的 0-1 损失 。 在 一 般 情况 下 ， 由 后 验 到 风险 并 且 
采取 将 风险 最 小 化 的 动作 是 一 种 简单 的 后 处 理 。 

在 一 些 应 用 中 ， 错 误 的 决策 ( 即 误 分 类 ) 也 许 会 有 很 高 的 代价 。 一 般 情况 下， 如果 自 动 系统 对 
它 的 决策 的 把 握 较 低 ， 则 需要 一 个 更 复杂 (例如 人 工 的 ) 决 策 。 例 如 ， 如 果 我 们 使 用 光学 数字 识别 
器 来 读 取信 封 上 的 邮编 号 码 ， 则 错误 地 识别 邮政 编码 将 导致 信件 被 发 送 到 一 个 错误 的 目的 地 。 

在 这 种 情况 下 ， 我 们 定义 一 个 附加 的 拒绝 (reject) 或 疑惑 (doubt) 动 作 ak，， 而 w(i=1，…， 
K) 是 在 类 G (i =1, =, K) 上 的 通常 的 决策 动作 (Duda、Har 和 Stork 2001) 。 


(3.9) 


一 个 可 能 的 损失 函数 是 
0 如 果 i = 上 
eae 如 果 = 天 +1 (3. 10) 
1 否则 
其 中 0 二 A <1 是 选择 第 (K+1) 个 拒绝 动作 导致 的 损失 。 拒 绝 的 风险 是 
Rag, |x) = X AP(C, |x) =A (3.11) 
而 选择 类 C, 的 风险 是 
R(a, |x) = 2 PCC, |x) = 1- P(C; |x) (3. 12) 


最 优 决策 规则 是 
ARC wRMTRAWK #1 A R(a; |x) <R(a,1 x), HH 
R(a, |x) <Rax,, |x) 
EA wA Raga |x) <R(a; |x),i =1,,K (3.13) 
给 定式 (3. 10) 的 损失 函数 ， 上 式 可 以 简化 为 
选择 C， WRMTHAWK 4 iA P(C,|x)>P(Cy lx), #8 
P(C; |x) >1-A 
拒绝 ”否则 (3. 14) 
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当 0 <A <l 时 ， 这 个 方法 是 有 意义 的 : 当 A=0 时 ,我 们 总 是 拒绝 ; 拒绝 和 正确 的 分 
类 是 同样 好 的 。 当 A=1 时 ,我 们 从 不 拒绝 ; 拒绝 与 错误 的 代价 相同 甚至 超过 错误 的 
代价 。 


3.4 判别 式 函 数 


分 类 也 可 以 看 作 是 实现 一 组 判别 式 函 数 (discriminant function)g;(x)(i=1,…, 天 ) 使 得 我 们 

选择 C, mA g(x) = max g(x) (3. 15) 
> 
g(x) =-R(a,|x) 
我 们 可 以 重新 给 出 贝 叶 斯 分 类 器 ， 并 且 最 大 化 判别 式 函 数 对 应 最 小 化 条 件 风 险 。 当 我 们 使 用 
0-1 损失 函数 时 ， 我 们 有 as 
g(x) = P(C, |x) F 
或 者 忽略 公共 规范 化 项 p(x)， 我 们 可 以 写 为 
gi(x) = p(x|C;)P(C,) 

这 把 特征 空间 划分 成 天 个 决策 区 域 (decision i 
region) Ri, =, Re, HEPR = |x | g, (x) = max, 
gi(x)|。 这 些 区 域 被 决策 边界 (decision boundaries ) , 
即 特征 空间 中 的 曲面 分 隔 开 ， 其 中 平局 出 现在 最 大 判 上 
别 式 函数 之 间 ( 参 见 图 3-1) 。 

当 有 两 个 类 的 时 候 ， 我 们 可 以 定义 单个 判别 式 

g(x) = g(xX) - &(*) 
并 且 我 们 图 3-1 决策 区 域 和 决策 边界 的 例子 
选择 全 wR g(x) >0 
C, 否则 

一 个 例子 是 两 类 学 习 问 题 ， 甚 中正 例 可 以 表示 为 C,， 负 例 表 示 为 C:。 当 天 =2 时 ， 分 类 

系统 是 一 个 两 分 器 (dichotomizer) ， 当 天 三 3 时 ， 它 是 一 个 多 分 器 (polychotomizer) 。 


3.5 效用 理论 


在 式 (3.7) 中， 我 们 定义 了 期 望 风险 并 且 选 择 最 小 化 期 望 风险 的 动作 。 现 在 ， 我 们 把 它 
推广 到 效用 理论 ， 它 涉及 我 们 对 状态 不 确定 时 所 做 出 的 合理 决策 。 我 们 假设 给 定 证 据 x， 状 
AS S, 的 概率 用 P(5, |x) TRE. FEE MTP BH HK (utility function) Uj,， 它 度量 当 状 态 为 
S, 时 采取 动作 a, 的 好 处 。 期 望 效用 (expected utility ) 是 











EU(a; |x) = 》 U,P(S, |x) (3. 16) 
一 个 合理 的 决策 者 选择 最 大 化 期 望 效 用 的 动作 
选择 a; wR EU(a, |x) = maxEU(a, | x) (3.17) 


对 于 分 类 ， 决 策 对 应 选择 类 中 的 一 个 ， 并 且 最 大 化 期 望 效用 等 价 于 最 小 化 期 望 风险 。 
心 一 般 用 货币 术语 度量 ， 并 且 这 也 为 我 们 提供 了 一 种 定义 损失 和 矩阵 Ax 的 途径 。 例 如 ， 在 我 
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们 定义 拒绝 选项 (3. 10 式 ) 时 ,根据 我 们 的 特定 应 用 ， 如 果 我 们 知道 一 个 正确 决策 能 给 我 们 
带 来 多 少 钱 的 收益 ， 一 个 错误 决策 将 使 我 们 损失 多 少 钱 ， 还 有 把 决策 委托 给 人 类 专家 的 代价 
多 大 ， 那 么 我 们 就 能 用 货币 单位 ， 而 不 是 用 0、A 和 1 填写 Ui 的 正确 值 ， 并 且 做 出 我 们 的 决 
策 来 最 大 化 期 望 收 益 。 

对 于 拒绝 ， 我 们 在 计算 机 程序 做 出 的 自动 决策 和 代价 较 大 但 是 正确 可 能 性 更 高 的 人 类 决 
策 之 间 选 择 。 类 似 地 ， 可 以 设想 一 条 多 个 自动 决策 者 的 流水 线 ， 我们 处 理 起 来 代价 比较 高 ， 
但 是 正确 的 机 会 更 大 。 我 们 将 在 第 17 章 讨 论 这 种 级 联 以 及 如 何 组 合 多 个 学 习 器 。 


3.6 关联 规则 


关联 规则 (association rule) 是 形 如 X 一 了 的 蕴涵 式 ， 其 中 站 是 规则 的 前 件 (antecedent)， 
而 了 是 规则 的 后 件 (consequent) 。 关 联 规则 的 一 个 例子 是 购物 篮 分 析 ， 通 过 购物 篮 分 析 ， 我 
们 希望 发 现 项 XX 和 了 Y 之 间 的 依赖 性 。 一 个 典型 的 应 用 是 零售 ， 其 中 XY 和 Y 是 销售 的 商品 ( 见 
12.149). 

在 学 习 关 联 规则 时 ， 有 三 个 度量 需要 计算 : 

”关联 规则 XY 的 置信 和 度 (confidence): 








Confidence(X—¥) = PCY| RY = PRAM) . HLA TAT (3. 18) 
a KKH XY RIE), MERA (interest) 
l O POY) _POIX) 
URI- = n AT (3.19) 
e KAM XY 的 支持 度 ( support): 
Support(X,Y) 三 P(X,Y) = EBSI HY Me | (3. 20) 





#| 顾客 | 

还 有 其 他 度量 (Omiecinski 2003) ， 但 是 这 三 种 ， 特 别 是 前 两 种 被 广泛 认识 和 使 用 。 置 信 
度 是 我 们 通常 计算 的 条 件 概率 P(Y|X)。 为 了 能 够 说 该 规则 具有 足够 的 置信 度 ， 它 的 值 应 该 
接近 于 1， 并 且 显 著 大 于 人 们 购买 了 的 总 体 概率 P(Y)。 我 们 也 对 最 大 化 规则 的 支持 度 感 兴 
趣 ， 因 为 即使 有 一 个 强 置 信和 度 的 依赖 ， 如 果 这 样 的 顾客 数量 很 少 ， 该 规则 也 是 没有 价值 的 。 
支持 度 展示 了 规则 的 统计 显著 性 ， 而 置信 度 展 示 了 规则 的 强度 。 最 小 支持 度 和 最 小 置信 度 值 
由 公司 设 定 ， 并 且 从 数据 库 中 搜索 具有 更 高 支持 度 和 置信 度 的 所 有 规则 。 

如 果 乏 和 了 是 独立 的 ， 则 我 们 预料 提升 度 接近 于 1; 如 果 该 比率 的 分 子 与 分 母 不 同 ， 即 
如 果 PCY X) Sj P(Y) 不 同 ， 则 我 们 预料 这 两 项 之 间 存 在 依赖 性 ; 如 果 提 升 度 大 于 1， 则 我 
们 可 以 说 X 使 得 Y 更 可 能 出 现 ; 如 果 提 升 度 小 于 1， 则 使 得 了 更 不 可 能 出 现 。 

这 些 公式 可 以 很 容易 推广 到 多 于 两 个 项 。 例 如 ，|X，Y，2Z| 是 一 个 3 项 集 ， 而 我 们 可 以 
PRM MN X, ZY 这 样 的 规则 ， 即 P(Y1 X，2Z)。 我 们 感 兴趣 的 是 找 出 具有 足够 高 的 支持 
度 和 置信 度 的 所 有 规则 ， 并 且 由 于 销售 数据 库 一 般 非 常 大 ， 所 以 我 们 希望 通过 少数 几 遍 对 于 
数据 库 的 扫描 找 出 它们 。 有 一 个 有 效 的 算法 ， 称 作 Apriori 算法 (Agrawal 等 ，1996 ) ， 来 做 这 
项 工作 。 该 算法 分 两 步 : (1) 找 出 频繁 项 集 ， 即 找 出 具有 足够 支持 度 的 项 集 ; (2) 通 过 把 频 
繁 项 集 划 分 成 两 个 子 集 ， 分 别 作为 前 件 和 后 件 ， 从 而 把 频繁 项 集 转 换 成 具有 足够 置信 度 的 
规则 。 
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1) 为 了 快速 找 出 频繁 项 集 ( 而 不 完全 枚 举 项 的 所 有 可 能 子 集 ) ，4prior 算法 利用 如 下 事 
K: |X,，Y，Z1 要 成 为 频繁 的 (具有 是 够 支持 度 的 )， 它 的 所 有 子 集 {|X，Y| 、|X，Z| 和 |Y， 
Z| 也 都 应 该 是 频繁 的 一 一 添加 男 一 项 不 会 提高 支持 度 。 这 就 是 说 ,我 们 只 需要 检查 其 2 项 
子 集 都 频繁 的 3 项 集 。 换 句 话 说 ， 如 果 知道 一 个 2 项 集 不 是 频繁 的 ， 则 可 以 剪 掉 它 的 所 有 超 
集 而 不 必 检 查 它们 。 

我 们 从 找 出 频繁 1 项 集 开始 ， 并 在 每 一 步 ， 以 归纳 的 方式 由 频繁 上 项 集 产生 候选 +1 
项 集 ， 然 后 扫描 数据 ， 以 检查 它们 是 否 具 有 足够 的 支持 度 。 为 了 方便 访问 ，Apriori 把 频繁 
项 集 存放 在 一 个 散 列表 中 。 注 意 ， 随 着 上 增加， 候选 项 集 的 个 数 将 迅速 减少 。 如 果 最 长 的 频 
繁 项 集 包 含 n 项 ， 则 总 共 需 要 扫描 数据 n+1 次 。 

2) 一 旦 我 们 找 出 了 频繁 项 集 ， 就 需要 把 上 项 集 划 分 成 两 个 子 集 ， 分别 作为 前 件 和 后 件 ， 
把 它 转换 成 规则 。 正 如 产生 频繁 项 集 所 做 的 那样 ， 我 们 从 单项 为 后 件 、k -1 个 项 为 前 件 开始 。 因 
此 ， 对 于 所 有 可 能 的 单项 后 件 规则 ， 检 查 它 是 否 具有 足够 的 置信 和 度 ， 如 果 没 有 就 删除 它 。 

注意 ， 对 于 相同 的 项 集 ， 可 能 有 多 个 以 不 同 的 子 集 为 前 、 后 件 的 规则 。 因 此 ， 我 们 检查 
是 否 可 以 把 一 项 从 前 件 移 到 后 件 。 后 件 中 具有 更 多 项 的 规则 更 特殊 、 更 有 用 。 这 里 ， 与 频繁 
项 集 产 生 一 样 ， 我 们 利用 如 下 事实 : 为 了 得 到 一 个 后 件 中 有 两 个 项 目 具 有 足够 置信 度 的 规 
则 ， 则 具有 单项 后 件 的 两 个 规则 本 身 都 应 该 具有 足够 的 置信 和 度 。 也 就 是 说 ， 从 单项 后 件 规则 
到 两 项 后 件 规则 不 需要 检查 所 有 可 能 的 两 项 后 件 ( 习题 7) 。 

应 该 记 住 ， 规 则 X 一 了 不 必 列 含 因果 关系 ， 而 只 是 一 种 关联 。 在 一 个 问题 中 ， 可 能 还 有 
一 些 隐藏 变量 ， 它 们 的 值 不 能 通过 证 据 获 得 。 使 用 隐藏 变量 的 优点 是 可 以 更 容易 定义 依赖 结 
构 。 例 如 ， 在 购物 篮 分 析 中 ， 当 我 们 想 找 出 销售 商品 之 间 的 依赖 时 ， 比 如 我 们 知道 婴儿 食 
品 ”““ 尿 不 湿 ” 和 ”牛奶 "之 间 的 依赖 性 ， 因 为 购买 其 中 一 种 商品 的 顾客 多 半 会 买 另 两 种 。 我 
们 不 表示 这 三 者 之 间 的 依赖 性 ， 而 是 指定 一 个 隐藏 结 点 "家 有 婴儿 "作为 这 三 种 商品 消费 的 
隐藏 原因 ， 我 们 将 在 第 16 章 讨论 的 图 模型 使 得 我 们 可 以 表示 这 种 隐藏 变量 。 当 存在 隐藏 结 
点 时 ， 它 们 的 值 由 给 定 的 观测 结 点 的 值 估 计 和 填 人 。 


3.7 注释 


依据 不 确定 数据 进行 决策 已 经 有 很 长 的 历史 ,并且 人 类 一 直 在 探索 各 种 陌生 领域 ， 寻 找 
证 据 来 排除 不 确定 性 : 例如 天 体 、 水 品 球 和 咖啡 杯 。 使 用 概率 论 ， 从 有 意义 的 证 据 推理 仅 有 
几 百 年 的 历史 。 关 于 概率 和 统计 学 的 历史 ， 以 及 拉 普 拉 斯 、 伯 努 利和 创建 该 理论 的 其 他 学 者 
的 一 些 早期 论文 见 Newman1988 。 

Russell 和 Norving( 1995) 给 出 了 效用 理论 和 信息 值 的 很 好 讨论 ， 该 书 还 用 货币 术语 讨论 
了 效用 分 配 。Shafer 和 Pearl 1986 是 不 确定 下 推理 的 早期 论文 的 汇集 。 

关联 规则 成 功 地 用 在 许多 数据 挖掘 应 用 中 ， 并 且 我 们 在 许多 网 站 上 都 看 到 这 样 的 规则 ， 
用 来 推荐 书籍 、 电 影 、 音 乐 等 。 算 法 很 简单 ， 但 是 在 大 型 数据 库 上 的 有 效 实现 非常 重要 
(Zhang 和 Zhang 2002; Li 2006)。 稍 后 ,我 们 将 会 在 第 16 章 看 到 图 模型 如 何 把 关联 规则 推 
广 到 非 二 元 的 情况 ， 其 中 关联 可 以 有 不 同 的 类 型 ， 也 人 允许 隐藏 变量 。 


3.8 习题 
1. 在 两 个 类 的 问题 中 ， 似 然 比 (likelihood ratio) 是 
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plx |C) 
p(x | C,) 
请 用 似 然 比 写 出 判别 函数 。 


. 在 两 个 类 的 问题 中 ， 对 数 几 率 (log odd) 定 义 为 


tog Foes |) 
8 P(C, |x) 
请 用 对 数 几 率 写 出 判别 函数 。 


. 在 两 类 、 两 动作 问题 中 ， 如 果 损 失范 数 是 Au =An =0, Ay =10, Ay =1， 写 出 最 佳 决策 规则 。 
4. 提出 一 种 三 级 级 联 ， 当 一 级 拒绝 时 ， 像 式 (3. 10) 那 样 使 用 下 一 级 。 如 何在 不 同 级 中 设 定 和 ? 
. 某 人 做 公平 投 币 ， 如 果 结 果 是 正面 ， 你 什么 都 得 不 到 ， 否 则 就 会 得 到 $ 5。 玩 这 样 的 游戏 


你 愿意 支付 多 少 钱 ” 如 果 赢 $ 500 而 不 是 $ 5 又 如 何 ? 


. 推广 购物 篮 分 析 的 置信 和 度 和 支持 度 公 式 ， 计算 依赖 ， 即 PCY | X,, =, X,) 0 
7. 证 明 : 把 一 项 由 前 件 移 到 后 件 置信 度 不 会 增加 : confidence (ABC—+D ) >confidence(AB—>CD) 。 
8. 在 购物 篮 分 析 中 ， 如 果 对 于 每 件 售 出 的 商品 我 们 还 有 一 个 数 ， 该 数 指出 顾客 喜爱 该 商品 


的 程度 ,例如 ， 在 0 到 10 这 个 范围 内 ， 你 怎么 能 利用 这 一 附加 信息 计算 把 哪 种 商品 推荐 
给 顾客 ? 


. 给 出 事务 数据 的 例子 ， 其 中 对 于 规则 XY, 


(a) 支持 度 和 置信 度 都 高 。 
(b) 支持 度 高 而 置信 度 低 。 
(c) 支持 度 低 而 置信 度 高 。 
(d) 支持 度 和 置信 度 都 低 。 
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参数 方法 





前 面 ， 我 们 讨论 了 在 使 用 概率 对 不 确定 性 建 模 时 ， 如 何 做 出 最 优 决 策 。 现 在 ， 考 虑 如 何 
从 给 定 的 训练 集 估计 这 些 概率 。 我 们 从 分 类 和 回归 的 参数 方法 开始 。 在 后 面 的 章节 中 ， 将 讨 
论 半 参数 和 非 参数 方法 ,介绍 用 于 权衡 模型 复杂 度 和 经 验 误 差 的 模型 选择 方法 。 


4.1 3 引言 


统计 量 (statistic ) 是 从 给 定 样本 中 计算 的 任何 值 。 在 统计 推断 中 ， 我 们 使 用 样本 提供 的 
信息 进行 决策 。 第 一 种 方法 是 参数 方法 ， 这 里 假设 样本 取 自 服从 已 知 模型 的 某 个 分 布 ， 例 如 
高 斯 分 布 。 参 数 方法 的 优点 是 ， 模 型 定义 在 少量 参数 (例如 均值 、 方 差 ) ， 即 分 布 的 有 效 统 
计量 上 。 一 旦 从 样本 中 估计 出 这 些 参数 ， 就 知道 了 整个 分 布 。 我 们 从 给 定 的 样本 估计 分 布 的 
参数 ， 把 这 些 佑 计 放 到 假设 的 模型 中 ， 并 得 到 估计 的 分 布 ， 然 后 用 它 进 行 决策 。 我 们 用 来 估 
计 分 布 参数 的 方法 是 最 大 似 然 佑 计 。 我 们 还 将 讨论 贝 叶 斯 估计 ， 随 着 计算 能 力 的 提高 ， 贝 叶 
斯 佑 计 日 趋 流 行 。 

我 们 从 密度 估计 (density estimation) 开始 。 密 度 估计 是 估计 p(x) 的 一 般 情况 。 我 们 使 用 
密度 估计 进行 分 类 ， 其 中 估计 的 密度 是 能 够 计算 后 验 概率 PC, |x) 并 做 决策 的 类 密度 
p(x|Ci) 和 P(C;)。 然 后 ,我 们 讨论 回归 ， 其 中 估计 的 密度 是 p(y |x). ASHE, x 是 一 维 的 ， 
因此 密度 是 一 元 的 。 在 第 5 章 中 ， 我 们 将 推广 到 多 元 情况 。 


4.2 最 大 似 然 估 计 


假定 我 们 有 一 个 独立 同 分 布 (iid) 样 本 X = fx) 。 我 们 假设 * 是 从 某 个 定义 在 参数 9 上 
的 已 知 概率 密度 族 p(x | 6) 中 抽取 的 实例 : 
x ~ p(x|0) 
我 们 希望 找 出 这 样 的 69， 使 得 x' 尽 可 能 像 是 从 p(x 10) 抽取 的 。 因 为 x' 是 独立 的 ， 给 定 
BR O, FER X 的 似 然 (likelihood) 是 个 体 点 似 然 的 乘积 : 
IX10) = p(X|@) = Ic |8) (4.1) 
在 最 大 似 然 估计 (maximum likelihood estimation) 中 ， 我 们 感 兴趣 的 是 找到 这 样 的 9， 使 得 
xX 最 像 是 抽取 的 。 因 此 ， 我 们 寻找 最 大 化 样本 似 然 的 6， 该 似 然 记 作 71(9 1X) 。 我 们 可 以 最 大 
化 该 似 然 的 对 数 ， 而 不 改变 它 取 最 大 值 的 数值 。log( ) 把 乘积 转换 为 求 和 ， 并 且 当 假定 某 种 
密度 (例如 包含 指数 ) 时 进一步 简化 计算 量 。 对 数 似 然 (log likelihood) 定义 为 
LIX) = log (|x) = Y, log pC 10) (4.2) 
现在 ， 让 我 们 来 看 我 们 感 兴趣 的 实际 应 用 中 出 现 的 一 些 分 布 。 如 果 我 们 有 两 类 问题 ， 我 们 就 
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用 伯 努 利 分 布 。 当 存在 天 > 2 个 类 时 ， 分 布 拓 广 为 多 项 分 布 。 高 斯 ( 正 态 ) 密度 是 一 种 最 常 使 用 的 
对 类 条 件 输入 建 模 的 密度 。 对 于 这 三 种 分 布 ， 我 们 讨论 它们 的 参数 的 最 大 似 然 估计 (MLE ) 。 


4.2.1 伯 努 利 密度 


在 伯 努 利 分 布 中 ， 有 两 个 结果 : 事件 要 么 发 生 ， 要 么 不 发 生 。 例 如 ， 实 例 是 类 的 正 例 ， 
或 者 不 是 。 事 件 发 生 ， 伯 努 利 随机 变量 X 以 概率 p 取 值 1， 事 件 不 发 生 的 概率 为 1 -PP， 并 用 
X HHO 表示。 这 表示 为 

P(x) =p'(l-p)'*, xe {0,1} (4.3) 

期 望 值 和 方差 可 以 用 下 式 计算 : 

E[X]= 》 xp(x) =1l1+-p+0-(l-p) =p 


x 


Var(X) = ¥ (x - E[X])’p(x) = p(1 -p) 


p 是 唯一 参数 ， 并 且 给 定 独 立 同 分 布 样本 X= fx}, IER e] 10，1| ,我 们 希望 计算 
p 的 估计 P:。 对 数 似 然 是 


N 
£(p |X) = log[lp'™ a - p) 0 
t=1 


= xe log p + (n 一 Dx log(1 - p) 

通过 求解 dL/dp =0 可 以 找 出 最 大 化 该 对 数 似 然 的 P:，p 上 带 帽 表示 它 是 p 的 一 个 估计 。 
2 3 
B= N (4.4) 

p 的 估计 是 事件 发 生 的 次 数 与 试验 次 数 的 比值 。 注 意 ， 如 果 XX 是 参数 为 p 的 伯 努 利 变 
量 ,， 则 E[X] =p, 并且 作为 期 望 ， 均 值 的 最 大 似 然 估计 是 样本 的 平均 值 。 

注意 ， 该 估计 是 样本 的 函数 ,并且 也 是 一 个 随机 变量 ; 给 定 从 相同 的 p(x) 中 抽取 的 不 
EX, RATAREA: 分 布 。 例 如 ，p; 分 布 的 方差 预料 随 NN 的 增加 而 减少 ; 随 着 样本 增 
大 ， 它 们 (从 而 它们 的 平均 值 ) 变 得 更 相似 。 


4.2.2 多 项 密度 


以 伯 努 利 分 布 的 推广 为 例 ， 其 中 随机 事件 的 结果 不 是 两 种 状态 ,而 是 种 互 斥 、 穷 举 
状态 之 一 (例如 类 ) ， 其 中 每 种 状态 出 现 的 概率 为 p, HP Ep, =1。 Way, x, +, xe 是 
指示 变量 ， 其 中 当 输 出 为 状态 i 时 x, 为 1， 否 则 为 0。 


P(X, ,%3 2g) = 林产 (4.5) 
假定 我 们 做 N 次 这 样 的 独立 试验 ， 结 果 为 X = 1xz |, BR, 
Pe f 如 果 试 验 t 选择 状态 i 
” lo ”否则 
其 中 Bx: =l, Pi 的 最 大 似 然 估计 是 





p; = a (4. 6) 
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状态 i 的 概率 估计 是 结果 为 状态 i 的 试验 次 数 与 试验 总 次 数 的 比值 。 有 两 种 方法 可 以 获 
得 这 个 估计 : WR x, 是 0/1， 则 可 以 认为 它们 是 个 独立 的 伯 努 利 试验 。 或 者 ， 我 们 可 以 写 
出 对 数 似 然 并 找 出 最 大 化 它 的 p 满足 条 件 Zip; =1)。 


4. 2.3 高 斯 ( 正 态 ) 密度 


X EEK u HAH P 的 高 斯 ( 正 态 ) 分 布 ， 记 作 N u, o), WREE KEE RZA 








-l a -p)* 
p(x) = zzl- = | 一 0 一 X% < 一 o (4.7) 
给 定 样 本 X= {x'} 0, ita’ ~N (uw, ，o) ， 高 斯 样本 的 对 数 似 然 为 
L(p,0 |X) =- Pog( 2m) - N log ø - PO TAL 
20 
通过 求 该 对 数 似 然 的 偏 导 数 并 令 它们 等 于 零 ， 求 得 最 大 似 然 估计 为 
yx 
m = (4.8) 
= E(x ia m)’ 
he N 


我 们 根据 通常 的 约定 ， 用 希腊 字母 表示 总 体 参数 ， 用 罗马 字母 表示 它们 的 样本 估计。 有 
时 ， 帽 ( 抑 扬 符 号 ) 也 用 来 表示 估计 ， 例 如 w。 


4.3 评价 估计 : 偏 倚 和 方差 


AX RAB BR 0 指定 的 总 体 上 的 样本 ， 并 令 d =dX) 是 6 的 一 个 估计 。 为 了 评估 该 佑 
计 的 质量 ， 我 们 可 以 度量 它 与 6 有 多 大 不 同 ， 即 (d(X) -9)”。 但 是 因为 它 是 一 个 随机 变量 
( 它 依赖 于 样本 )， 我 们 需要 对 它 在 可 能 的 X 上 取 平 均值 ， 并 考虑 r(d，6) ， 它 是 估计 d 的 均 
方 误差 (mean square error) ， 定 义 为 
r(d,0) = E[ (d(x) - 0)°] (4.9) 
估计 的 偏 倚 (bias) 是 
b,(d) = E[d(x)] -0 (4. 10) 
如 果 对 所 有 的 9 值 都 有 5b,(d) =0， 则 4 是 8 的 无 偏 估 计 (unbiased estimator)。 例 如 ， 如 
F x 是 从 均值 为 的 密度 抽取 出 的 ， ce iy m 是 均值 的 一 个 无 偏 估计 ， 因 为 
2) FEE] = Me 
这 就 意味 着 虽然 在 一 个 特定 样本 上 ，m AU EAS u 不同 ， 但 是 如 果 我 们 取 许 多 这 样 的 样 
本 X;:， 并 且 估 计 许 多 m, =m(X;) ， 随 着 样本 的 增加 ， 它 们 的 平均 值 将 通 近 从。m 也 是 一 
致 估计 ， 也 就 是 说 ， 当 NA 一 om ft, Var(m)—0, 
Var(m) = Var (7 ) = ri Var(x') = w = A 
随 着 样本 中 的 点 数 w 的 增 大 , m 对 的 偏离 变 小 。 现 在 ， 让 我 们 来 检查 0? EKM s: 





E(m) = E| 
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fre 5,(x = m)’ T ACAN - Nr? 








N N 
E[s’] _ LAL) a 
给 定 Var(X) =E[ X] -ELX] ,我 们 得 到 E[X] =Var(X) +E[X] ”, 并 且 
E| (x) ] =o’ +p, Elm]=o/N+w 


FTE, RNA 
E[s?] _ No +p) 人 ou (1) 





o * o 
上 式 说 明 s 是 e WA (N/(N-1))s? 是 一 个 无 偏 估 计 。 然 而 ， 当 NN 很 大 时 ， 差 别 
可 以 忽略 。 这 是 一 个 渐 近 无 偏 估 计 (asymptotically unbiased estimator) 的 例子 ， 它 的 偏 倚 随 着 
N 趋向 无 穷 而 趋向 于 0。 
均 方 误差 可 以 重新 改写 如 下 (d 是 d(X) 的 缩写 ) : 
r(d,0) = E[ (d - 0)°] 
[(d - E[d] + Eld] - 6)°] 
[(d - E[d])* + (E[d] - 6)’ +2(E[d] - 0) (d - E[d])] 
[(d - E[d])*] + E[ (E[d] - 0)°] +2E[(E[d] - 6) (d - E[d])] 
(d - E[d])*] + (E[d] - 6)? +2(E[d] ~- 0)E[d - E[ d] ] 
[(d - E[d])*] + (Eld] - 0)’ (4.11) 
方差 mA 
最 后 两 式 相等 是 因为 了 [dj 是 常数 ， 因 此 ELd] -9 也 是 一 个 常数 ， 并 且 因 为 E[d -E[d]] = 
E[d] -E{d] =0。 在 式 (4. 11) 中 ， 第 一 项 是 方差 (variance) ， 度 量 在 平均 情况 下 d; 在 期 望 值 
附近 的 变化 程度 (从 一 个 数据 集 到 另 一 个 数据 集 ) ;而 第 二 项 是 偏 傈 (bias) ， 度 量 期 望 值 偏离 
EMH 9 的 程度 (参见 图 4-1) 。 于 是 ， 我 们 把 误差 写成 方差 和 偏 倚 的 平方 之 和 : 
r(d,@) = Var(d) + (b,(d))’ (4. 12) 
方差 


d, 


ll 
& 








Eld] 0 
= 


偏 倚 
图 4-1 9 是 需要 估计 的 参数 。d; 是 在 不 同样 本 上 的 多 个 估计 (用 “ x ”表示 ) 。 偏 倚 是 d 的 
期 望 值 与 9 之 差 。 方 差 是 d 在 期 望 值 周围 的 散布 程度 。 我 们 希望 它们 两 个 都 很 小 
4.4 贝 叶 斯 估计 


有 时 ， 在 看 到 样本 之 前 ， 我 们 (或 应 用 领域 专家 ) 可 能 会 有 一 些 关 于 参数 9 可 能 取 值 的 
范围 的 先 验 (prior) 信息 。 这 些 信息 是 非常 有 用 的 ， 也 应 当 利 用 起 来 ， 尤 其 是 样本 较 小 时 。 
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这 些 先 验 信息 不 会 告诉 我 们 参数 的 确切 值 (否则 我 们 就 不 需要 该 样本 ) ， 并 且 我 们 通过 把 6 
看 作 是 一 gene 点 量 并 为 它 定 义 先 验 密 度 p(9) 来 对 这 种 不 确定 性 建 模 。 例 如 ， 假 设 我 们 知 
道 9 接近 正 态 分 布 ， 并且 8 介 于 5 到 9 之 间 , 7 左右 对 称 的 置信 度 为 90% 。 于 是 ， 可 以 把 
PO 写成 均值 为 7 的 正 态 分 布 ， 并且 因为 


p{-1.64<9-# <1. 64} = 0.9 
oO 


Plu - 1.640 <0<p+1.640} = 0.9 
我 们 取 1.64 =2, 并 且 使 用 o =2/1.64, EE, 我 们 就 可 以 假定 p(9) ~N(7, (2/7 
1.64)7), 

先 验 密度 (prior density)p(9) 告 诉 我 们 在 看 到 样本 之 前 9 的 可 能 取 值 。 我 们 把 它 和 样本 
数据 告诉 我 们 的 ( 即 似 然 密度 p(X | 6) ) 结合 起 来 ， 利 用 贝 叶 斯 规则 ， 得 到 9 的 后 验 密度 
(posterior density) ， 它 告诉 我 们 看 到 样本 之 后 9 的 可 能 取 值 : 

p(x) = PALOPO) pX lope) (4.13) 
DO p(x | 6") de 





为 了 估计 x* 上 的 密度 ， 我 们 有 
p(x |X) = jp(s,glx)d8 


= [p(x | 0.x)p(0 |x) do 
= [p(x |0)p(@ |x) do 


p(x|0,X) =p(x|9)， 因 为 只 要 我 们 知道 有 效 统 计量 9， 我 们 就 知道 关于 分 布 的 一 切 。 
这 样 ， 我 们 在 使 用 所 有 9 的 值 的 预测 上 取 平 均值 ， 用 它们 的 概率 加 权 。 如 果 我 们 像 在 回归 中 
一 样 ， 以 y=g(x|9) 的 形式 做 预测 ， 则 有 
y= fec | @)p(o |x) do 
除非 后 验 具 有 很 好 的 形式 ， 和 否则 求 这 个 积分 可 能 非常 困难 。 当 求 整 个 积分 不 可 行 时 ,我 
们 把 它 缩减 到 单个 点 。 如 果 我 们 可 以 假定 P(6 |x) 在 它 的 众 数 周 围 有 一 个 窗 的 峰值 ， 则 使 用 
最 大 后 验 (maximum a posteriori, MAP) 估计 将 使 得 计算 比较 容易 : 
Ouap = arg maxp (6 Ix) (4.14) 
这 样 ， 用 单个 点 取代 整个 密度 ， 回 避 积 分 并 且 使 用 
p(x |X) = p(x | Om) 
Yur = g(x | Omp) 
如 果 我 们 没有 更 重要 的 理由 偏爱 9 的 某 些 值 ， 则 先 验 密度 是 扁平 的 ， 后 验 将 与 似 然 
p(X 19) 有 同样 的 形式 ， 并 上 且 MAP 估计 将 等 价 于 最 大 似 然 估计 (参见 4.2 节 ) ， 其 中 我 们 有 
Oy, = arg maxp(X |0) (4. 15) 
另外 一 个 可 能 的 方法 是 贝 叶 斯 估计 ( Bayes’ estimator) ， 它 被 定义 为 后 验 密度 的 期 望 值 
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One = ELO|X] = fope |x) ae (4. 16) 

取 期 望 值 的 原因 是 随机 变量 的 最 佳 估计 是 它 的 均值 。 假 设 9 是 变量 ,我 们 想 要 用 

EL 0) = 预测 。 可 以 证 明 如 果 常 数 c 是 8 的 估计 ， 则 
E[(0-c)] = El (@-pwt+p-c)’] 
= E[(@-p)*] +(u-e)’ 

WARM, EM). TEESE PF, OBOE. GORE, ， 如 果 pO |X) IEA 
的 ， 则 Opayes = Oyapo 

作为 一 个 例子 ， 我们 假设 x ~N(6， 05) 并 且 9~N(4,，o”)， Kip, oA o GA: 


(4.17) 





ail Sha = 80 
p010) = Ga wagner | 203 | 
ME. ENEA | Ry 
p(0) = -z| | 


可 以 证 明 p( 0 |X) 是 正 态 的 ， 满 足 
N/T, 5 
BLOW) = Ft wight ioe ere 

因此 ， 贝 叶 斯 估计 是 先 验 均值 jw 和 样本 均值 m 的 加 权 平 均值 ， 权 重 与 它们 的 方差 成 反 
比 。 利 用 样本 提供 的 更 多 的 信息 ， 随 着 样本 规模 NN 的 增加 ， 贝 叶 斯 估计 允 近 样本 的 平均 值 。 
X o 较 小 时 ， 即 当 我 们 关于 9 正确 值 具 有 较 少 的 先 验 不 确定 性 时 ,或 者 当 N 较 小 时 ， 我们 
的 先 验 猜测 jw 具有 较 好 的 效果 。 

注意 ，MAP 和 贝 叶 斯 估计 都 把 整个 后 验 密度 归 约 到 单个 点 并 且 丢失 信息 ， 除 非 后 验 是 
单 模 的 并 且 在 这 些 点 周围 有 一 个 窗 峰 。 随 着 计算 费用 降低 ， 一 个 可 能 性 是 使 用 蒙特 卡 洛 方 
法 ， 它 可 以 从 后 验 密度 产生 样本 (Andrieu 等 2003 ) 。 还 有 一 些 近似 方法 可 以 用 来 计算 整个 积 
分 。 我 们 将 在 第 14 章 更 详细 地 讨论 贝 叶 斯 估计 。 


4.5 参数 分 类 


我 们 在 第 3 章 看 到 ， 使 用 贝 叶 斯 规则 ， 我 们 可 以 把 类 C; 的 后 验 概 率 写 为 
_ p(«|C,)PCC,) = p(x|C)P(C.,) 














A vee 
并 使 用 判别 式 函 数 
gi(x) = p(x|C;)P(C;) 
或 者 等 价 地 
g(x) = log p(x|C,) + log P(C,) (4. 20) 
如 果 我 们 可 以 假设 p(x | C,) 是 高 斯 的 ， 
p(x|C,) = eal | (4.21) 
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TW sh (4. 20) 变 成 
(x = m)? 
207 
让 我 们 看 一 个 例子 : 假设 一 个 汽车 公司 销售 K 种 不 同 的 汽车 ， 为 了 简单 起 见 ， 我 们 假 
定 唯 一 影响 顾客 购买 的 因素 是 他 们 的 年 收入 ， 用 x 表示 。 于 是 ，P(C;) 是 购买 类 型 i 汽车 的 
顾客 所 占 的 比例 。 如 果 顾 客 的 年 收入 分 布 可 以 用 一 个 高 斯 分 布 近 似 ， 则 购买 类 型 i 汽车 的 顾 
客 其 收入 为 x 的 概率 p(x | C;) 服 从 分 布 N(p;:，o?)， HEP u 是 这 类 顾客 年 收入 的 均值 ，oai 
是 他 们 的 年 收入 的 方差 。 
当 我 们 不 知道 P(C;) 和 p(x | C;) 时 ,我 们 从 样本 估计 它们 并 把 它们 的 估计 插入 判别 式 ， 
得 到 判别 函数 的 估计 。 我 们 有 样本 


gah == Flog a= eee + log POC) (4,22) 


X= bal (4. 23) 
其 中 xe 8 是 一 维 的 , re 10，11" 使 得 











其 各 {. a (4. 24) 
0 如 果 Ee C,,k 4i 
对 于 每 一 个 类 ， 均 值 和 方差 的 估计 是 (依赖 于 4.8 R) 
Sr 
m; = Er (4.25) 
2 Al -mr 
明证 4. 26 
(4.26) 
而 先 验 的 佑 计 是 (依赖 于 4.6 式 ) 
p(C,) = te (4.27) 
把 这 些 估 计 代 入 式 (4.22) ， 得 到 
g;(x) = ~ Flog 2m ~ log s; Ba + log P(C,) (4. 28) 
2s; 


第 一 项 是 常数 ， 可 以 去 掉 ， 因 为 它 在 所 有 的 g(x) 中 都 是 一 样 的 。 如 果 这 些 先 验 相等 ， 
则 最 后 一 项 也 可 以 去 掉 。 如 果 我 们 进一步 假设 方差 都 相等 ， 则 上 式 可 以 写 为 
g(x) =-(x-m,)’ (4. 29) 
因此 我 们 把 x 指派 到 具有 最 近 均 值 的 类 : 
选择 C;, 如 果 |x -m| = min |x - m, | 
对 于 两 个 相 邻 的 类 ， 两 个 均值 之 间 的 中 点 是 决策 国 值 (参见 图 4-2)。 
&i(%) = g(x) 
(x -—m,)” = (x-m,)’ 
m, +m, 
s ae 
当 方差 不 相同 时 有 两 个 阔 值 (参见 图 4-3) ， 它 们 都 容易 计算 (参见 习题 4) 。 如 果 先 验 概 
率 不 同 ， 则 具有 向 不 太 可 能 的 类 的 均值 移动 决策 阔 值 的 效果 。 


x= 
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$ 
we 





plc) 


p (Cx) 





b ) 具 有 相等 先 验 的 后 验 


输入 是 一 维 的 ， 似 然 函数 a) 和 具有 相等 先 验 的 后 验 的 两 个 类 b) 。 
方差 相等 并 且 后 验 相 交 于 一 点 ， 该 点 是 决策 阔 值 




















-8 


c) MARR 
图 4-3 输入 是 一 维 的 ， 似 然 函 数 a) 和 具有 相等 先 验 的 后 验 的 两 个 类 b) 。 方 差 不 相等 并 且 后 
验 在 两 个 点 上 相交 。c) 中 对 两 个 类 和 A =0. 2 的 拒绝 (参见 3.3 节 ) 显 示 了 期 望 风 险 


这 里 ， 我 们 对 参数 使 用 最 大 似 然 估 计 。 但 是 ， 如 果 有 一 些 关于 它们 的 先 验 信息 (如 均 
值 ) WENT WA, 上 的 先 验 ， 使 用 PCx | C) 的 贝 叶 斯 估计 。 


这 里 必须 注意 : 当 x 连续 时 ， 我 们 不 要 急于 对 p(x | C:) 使 用 高 斯 密度 。 如 果 密 度 函数 不 
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是 高 斯 的 ， 则 分 类 算法 ( 即 阅 值 点 ) 将 会 出 错 。 在 统计 学 文献 中 ， 存 在 检查 正 态 性 的 检验 ， [72 


并 且 这 样 的 检验 应 该 在 假定 正 态 分 布 之 前 使 用 。 在 一 维 数 据 的 情况 下 ， 最 简单 的 检验 是 绘制 
直方 图 并 观察 密度 是 否 是 钟 形 的 ， 即 是 否 是 单 峰 并 且 围 绕 中 心 对 称 。 

这 是 基于 似 然 (likelihood-based approach) 的 分 类 方法 ， 其 中 我 们 使 用 数据 估计 密度 ， 使 
用 贝 叶 斯 规则 计算 后 验 密 度 ， 然 后 得 到 判别 式 。 在 稍 后 的 章节 中 ,我 们 讨论 基于 判别 式 的 方 
法 ， 那 里 我 们 将 绕 过 密度 估计 而 直接 估计 判别 式 。 


4.6 回归 


在 回归 中 ， 我 们 喜欢 将 数值 输出 写成 输入 的 函数 。 数 值 输出 称 为 因 变 量 ( dependent variable), 
函数 的 输入 称 为 自 变量 (independent variable) 。 我 们 假定 数值 输出 是 输入 的 确定 性 函数 与 随 
机 噪声 的 和 : 








r=f(x) +e 
其 中 了 (x) 是 未 知 函 数 ， 我 们 将 用 定义 在 参数 9 的 集合 上 的 估计 g(x | 6) 来 近似 它 。 如 果 我 们 假 
Ke 服从 均值 为 0， 方差 为 o 的 高 斯 分 布 ， 即 A 
e~N(0, o ), 并且 用 我 们 的 佑 计 gC) BURRA E[RIx}-wx+ wo 
函数 成.) ， 则 我 们 有 (参见 图 4-4) al 
p(r|x) ~N(g(x|0),0°) (4.30) FIRB" es / 
我 们 再 一 次 使 用 最 大 似 然 来 学 习 参 数 9。 训 a porlx*) 
练 集中 的 (x', r) 对 偶 取 自 未 知 的 联合 概率 密度 
P(x，r) ， 可 以 写作 
P(x,r) = p(r|x)p(x) oy 
p(r|x) 是 在 给 定 输入 下 输出 的 概率 ， 而 p(x) add MEEDE ODARA 
是 输入 的 密度 。 给 定 id ERX = fax, ria, X 中 ， 这 里 模型 是 线性 的 


数 似 然 是 


£(0|X) = log [J pr) = log] pC" | x‘) + log] [ p(') 
我 们 可 以 忽略 第 二 项 ， 因为 它 不 依赖 于 我 们 的 估计 。 于 是 ， 我 们 有 


N l : z 
L£(0 |X) = log] exp[- E 7 ak | 





1 
VTO 


log ( -EL -el 107] 


i. eae 
ae) ml 
== W lost ine) -Y [r ee lor (4.31) 

第 一 项 独立 于 参数 96， 可 以 去 掉 ， 因 子 1/o? 也 可 以 去 掉 。 最 大 化 上 式 等 价 于 最 小 化 
E(@ |x) -LS [r-e 10] (4. 32) 


它 是 我 们 最 经 常 使 用 误差 函数 ， 而 最 小 化 它 的 9 叫做 最 小 二 乘 估计 (least squares estimate) 。 
这 是 统计 学 经 常 做 的 一 个 变换 ， 当 似 然 ! 包含 指数 时 ， 取 代 最 小 化 1!， 我 们 定义 一 个 误差 台 
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E= -log!， 并 最 小 化 它 。 
在 线性 回归 (linear regression) 中 ， 我 们 有 线性 模型 
glx |w, w) = wx + wo 


取 误 差 平方 和 的 导数 (4. 32 式 ) ， 我 们 得 到 两 个 未 知 数 的 两 个 方程 
Zr = Nw, +w, Zr 


Ers = mo Ym +w D (x) 
ENTAR ERI REPENS Aw = 了 ， 其 中 


N zx Wo Dr 
hb eth lk 
Se B(x)’ w, Br'x' 
并 且 可 以 解 得 w=A'y。 
在 多 项 式 回归 (polynomial regression) 的 一 般 情况 下 ， 该 模型 是 次 多 项 式 


g(x' | wp, ,Ww ,WWo) = w(x)" + + W(x) +wx + wo 


这 个 模型 关于 它 的 参数 是 线性 的 ， 取 它 的 导数 ， 我 们 可 以 得 到 +1 个 未 知 数 的 上 +1 个 方 


程 ， 可 以 写 做 向 量 矩 阵 的 形式 Aw =y， 其 中 我 们 有 


N Xs IUP = ZEY 
A 7 Ex AC D I (x)? — X, (x) 
E(x)" E(x)" E (x)? wes Bx) 
wo Br 
w, Err 
w = w, |> y= Sry 
Wy Er (x')' 
WHE A =D'D 和 y=D'r， 其 中 
1 a (x!)? be (x) p 
px : Ps (x)? Fak (x )* l a r 
1 x (x)? on (x")* r" 


然后 ， 我 们 可 以 求解 参数 ， 得 到 


w = (DID)-Drr (4. 33) 
假设 高 斯 分 布 误差 ， 则 最 大 化 似 然 对 应 于 最 小 化 误差 的 平方 和 。 另 外 一 个 度量 是 相对 平 


方 误 差 (relative square error，RSE ) 


lr -elx | 0) I? 
lr =F) 
如 果 Ene BAF 1， 则 我 们 的 预测 与 用 平均 值 的 预测 一 样 好 ， 当 它 接近 于 0， 我 们 得 到 


Egs = (4. 34) 
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更 好 的 拟 合 。 如 果 Ess 接近 于 1， 则 意味 着 使 用 基于 输入 x 的 模型 不 比 没有 zx 的 情况 下 使 用 
平均 值 作为 估计 器 更 好 ; 如 果 Ense 接 近 于 0， 则 输入 * 是 有 用 的 。 

为 了 检查 回归 是 否 实现 很 好 的 拟 合 ， 一 个 度量 是 决定 系数 ( coefficient of determination) 

R = 1 -Ens 
并 且 为 了 对 回归 是 有 用 的 ， 我 们 要 求 R 接近 于 1。 

记 住 ， 为 了 最 好 地 泛 化 ,我们 应 该 调整 学 习 模型 的 复杂 度 ， 以 适应 数据 的 复杂 度 。 在 多 
项 式 回归 中 ， 复 杂 度 参数 是 拟 合 多 项 式 的 阶 ， 因 此 需要 找到 一 种 选择 最 佳 阶 数 的 方法 ， 能 够 
最 小 化 泛 化 误差 。 也 就 是 说 ， 找 到 一 种 方法 ， 调 整 模 型 的 复杂 度 使 其 最 佳 拟 合 数据 所 固有 的 
函数 复杂 度 。 


4.7 调整 模型 的 复杂 度 : 偏 倚 / 方 差 两 难 选择 


我 们 假设 样本 X = |x', ri 取 自 未 知 的 联合 概率 密度 pP(*，r) 。 使 用 这 个 样本 ， 我 们 构建 
hit (+) 0 x 上 (联合 密度 上 ) 的 期 望 平方 误差 可 以 表示 为 (用 4. 17 式 ) 


E| (r -g(x)) |x] = E[(r - E[r |x])? |x] + (E[r |x] - g(x) Y (4.35) 
oe 误差 的 平方 


右边 的 第 一 项 是 给 定 x 时 的 方差 ; 它 不 依赖 于 g(:) 或 X。 它 是 添加 噪声 的 方差 o € 
是 误差 的 一 部 分 ， 无论 我 们 使 用 什么 估计 方法 ， 都 不 可 能 消除 它 。 第 二 项 量化 g(x) 偏 离 回 
归 函 数 E[r |x] 的 程度 。 它 确实 依赖 于 估计 方法 和 训练 集 。 对 一 个 样本 来 说 ，g(x) 也 许 是 一 
个 非常 好 的 拟 合 ; 而 对 其 他 样本 ， 它 可 能 是 很 差 的 拟 合 。 为 了 评价 一 个 估计 gO) 的 好 坏 程 
BE, 我们 对 可 能 的 数据 集 进行 平均 。 

期 望 值 (样本 X 上 的 平均 ， 所 有 的 样本 大 小 均 为 N 并 从 相同 联合 密度 p(x, r) 抽 取 ) 是 
(使 用 4. 11 式 ) 

E[(Elr|x] -g(*))? |x] =(E[rlx] -Ele(x)]) +E[l(g(x) -Elg(x)])] (4.36) 
ia i 方差 

正如 我 们 前 面 所 讨论 的 ， 偏 倚 度 量 不 考虑 样本 变化 的 影响 时 g(x) 的 错误 程度 ; 方差 度 
量 当 样本 变化 时 g(x) 在 期 望 值 E[ g(x) ] 附 近 波 动 的 程度 。 

让 我 们 看 一 个 例子 : 为 了 估计 偏 倚 和 方差 ， 我 们 由 某 个 带 噪声 的 已 知 的 扩 :) 产 生 一 组 数 
HRX = |x:，ri| ,i=1,，…，M， 利 用 每 个 数据 集 形成 一 个 估计 g,;(*) ， 并 计算 偏 倚 和 方差 。 
注意 ， 在 现实 生活 中 ， 我 们 不 能 够 这 么 做 ， 因 为 我 们 不 知道 帮 *) ， 也 不 知道 所 添加 噪声 的 参 
Me. FÆ, Ele) ] 用 g;(") 上 的 平均 来 估计 : 


偏 傈 和 方差 的 估计 是 
Bias (g) = +> [g(x') -f(x')] 
Variance(g) = Dy >. Le.(x') -g(x')]? 
让 我 们 看 几 个 不 同 复杂 度 的 模型 : 最 简单 的 是 常数 拟 合 
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ga) =2 
它 没 有 方差 ， 因 为 我 们 没有 使 用 数据 ， 并 且 所 有 的 &i(x) 都 是 相同 的 。 但 是 偏 倚 很 高 ， 除 非 
对 于 所 有 的 x*，f(x) 值 都 接近 于 2。 如 果 我 们 取样 本 中 x' 的 平均 值 
gx) = > c/n 

而 不 是 常数 2， 则 就 减少 偏 倚 ， 因 为 我 们 预料 在 通常 情况 下 ， 平 均值 是 比 常数 更 好 的 估计 -。 
但 是 ， 这 增加 了 方差 ， 因 为 不 同 的 样本 X; 将 有 不 同 的 平均 值 。 通 常 ， 在 这 种 情况 下 ， 偏 倚 
的 减少 比方 差 的 增加 更 大 ， 而 误差 将 会 降低 。 

图 4-5 给 出 了 多 项 式 回 归 的 情况 下 的 一 个 例子 。 随 着 多 项 式 阶 的 增加 ， 数 据 集 的 较 小 的 变 
化 将 导致 拟 合 多 项 式 的 较 大 变化 ; 因此 方差 增加 。 但 是 ， 复杂 的 模型 可 以 更 好 地 拟 合 潜在 的 函 
数 ; 因此 偏 倚 减 少 (参见 图 4-6)。 这 称 为 偏 倚 / 方 差 两 难 选择 (bias/variance dilemma) ， 并 且 不 
仅 对 于 多 项 式 回归 ， 而 且 对 于 任何 机 器 学 习 系 统 都 存在 这 一 问题 ( Ceman Bienenstock 和 Doursat 
1992)。 为 了 减少 偏 倚 ， 冒 着 具有 高 方差 的 危险 ,模型 应 当 是 柔性 的 。 如 果 方 差 保 持 较 低 ， 则 我 
们 可 能 不 能 很 好 地 拟 合 数据 ， 并 且 具 有 较 高 的 偏 傈 。 最 佳 模 型 是 最 好 地 权衡 偏 傈 和 方差 的 模型 。 

如 果 有 偏 倚 ， 这 指明 我 们 的 模型 类 不 包含 解 ， 这 是 欠 拟 合 (underfitting)。 如 果 有 方差 ， 则 
模型 类 过 于 一 般 ， 并 且 也 学 习 噪 声 ， 这 是 过 拟 合 (overfitting) 。 如 果 g(:) 是 与 所 :) 同 样 的 假设 
类 (例如 同 阶 多 项 式 ) ， 则 我 们 有 一 个 无 偏 估 计 ， 并 且 估 计 的 偏 倚 随 着 模型 数量 的 增加 而 减 小 。 
这 表明 选择 正确 模型 的 误差 降低 效果 (在 第 2 BE, 我 们 称 之 为 归纳 偏 倚 一 一 这 两 处 “ 偏 倚 ” 的 使 
用 是 不 同 的 ， 但 并 非 不 相关 ) 。 对 于 方差 ， 它 同样 依赖 于 训练 集 的 大 小 ; 由 于 样本 导致 的 可 变性 
随 着 样本 规模 的 增加 而 减少 。 总 结 一 下 ,为 了 取得 小 的 误差 值 ， 我 们 应 该 有 合适 的 归纳 偏 倚 ( 在 
统计 意义 上 取得 小 偏 傈 ) ， 并 且 有 一 个 足够 大 的 数据 集 ， 使 得 模型 的 可 变性 能 够 受到 数据 的 约束 。 


Sr 5 


























c) 三 次 
图 4-5 a) pRB f(x) =2sin(1.5x) 和 一 个 从 该 函数 抽样 含 噪声 (AN(0，1) ) 的 数据 集 。 抽 取 
五 个 样本 ， 每 个 包含 20 个 实例 。b) 、e) 、d) 分 别 是 5 个 一 次 、 三 次 和 五 次 多 项 式 

拟 合 ， 即 g,(*)。 对 每 种 情况 ， 虚 线 是 5 次 拟 合 的 平均 z(:) 
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图 4-6 与 图 4-5 同样 的 设置 ,使 用 100 个 模型 而 不 是 5 个 ， 从 1 到 5 次 多 项 式 的 
偏 倚 ， 方 差 和 误差 。 一 次 多 项 式 具 有 最 小 方差 5 次 多 项 式 具有 最 小 偏 倚 。 
随 着 阶 增加 ， 偏 倚 减 小 但 是 方差 增加 。3 次 多 项 式 具有 最 小 误差 


注意 ,方差 大 时 偏 倚 小 ， 表 明 Z(*) 是 一 个 好 的 估计 器 。 因 此 ， 为 了 取得 小 误差 我们 
可 以 采用 大 量 的 高 方差 模型 ， 并 且 用 它们 的 平均 值 作为 我 们 的 估计。 我 们 将 在 第 17 章 讨论 
这 种 模型 组 合 方法 。 


4.8 模型 选择 过 程 


有 许多 过 程 可 以 用 来 调整 模型 的 复杂 度 。 

在 实践 中 ， 我 们 用 来 发 现 最 佳 复 杂 度 的 方法 是 交叉 验证 (cross-validation ) 。 我 们 不 能 计 
算 一 个 模型 的 偏 倚 和 方差 ,但 是 我 们 能 够 计算 总 误差 。 给 定 一 个 数据 集 ， 我 们 把 它 分 成 两 部 
分 ， 分 别 作为 训练 集 和 验证 集 ， 在 训练 集 上 训练 不 同 复杂 度 的 候选 模型 ， 在 验证 集 上 测试 它 
们 的 误差 。 随 着 模型 复杂 度 增加 ， 训 练 误差 持续 降低 。 在 验证 集 的 误差 降低 达到 一 定 的 复杂 
度 水 平 之 后 ， 停 止 降低 或 不 再 明显 的 降低 ， 如 果 有 明显 噪声 的 话 甚至 还 会 增加 。 这 个 “ 拐 
点 ”对 应 于 最 佳 复杂 度 水 平 (参见 图 4-7)。 

在 现实 生活 中 ， 我 们 不 能 像 图 4-6 中 那样 计算 偏 傈 ， 因 而 不 能 计算 误差 ; 除了 还 包含 噪 
声 之 外 ， 图 4-7 中 的 验证 误差 是 一 种 估计 : 即便 我 们 有 无 偏 的 正确 模型 ， 并 且 有 足够 大 的 数 
据 集 可 以 忽略 方差 ， 也 仍然 会 有 非 零 验证 误差 。 注 意 ， 图 4-7 中 的 验证 误差 与 图 4-6 中 的 误 
差 不 同 ， 不 是 “V 形 ” 的 ， 因 为 前 者 使 用 更 多 训练 数据 ， 并 且 我 们 知道 使 用 更 多 数据 可 以 限 
制 方差 。 确 实 ， 在 图 4-5d) 中 我 们 看 到 ， 在 有 数据 的 地 方 ， 即 使 5 次 多 项 式 的 表现 也 像 3 次 
多 项 式 一 样 ; 在 只 有 少量 数据 的 地 方 (例如 在 两 端 ) ，5 次 多 项 式 不 那么 准确 。 

另外 一 个 常用 的 方法 是 正则 化 (regularization ) ( Breiman 1998a) 。 在 这 种 方法 中 ， 我 们 用 
一 个 增 广 误差 函数 ， 记 作 

E' = 数据 上 的 误差 + 入" 模型 复杂 度 (4.37) 
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b) 误差 与 多 项 式 的 阶 


图 4-7 与 图 4-5 同样 的 设置 ， 产 生 训练 集 和 确认 集 (每 个 包含 50 个 实例 ) a) 训练 数据 和 
1 到 8 阶 拟 合 多 项 式 。b) 训练 和 确认 误差 作为 多 项 式 阶 的 函数 。“ 拐 点 "在 3 


它 的 第 二 项 用 一 个 大 的 方差 惩罚 复杂 模型 ， 其 中 入 给 出 了 罚 的 权重 。 当 我 们 最 小 化 增 
广 误差 函数 而 不 是 数据 上 的 误差 时 ， 我 们 惩罚 了 复杂 模型 ， 因 此 降低 了 方差 。 如 果 A 取得 
太 大 ， 则 只 允许 很 简单 的 模型 ,我 们 就 会 冒 着 引进 偏 倚 的 危险 。A 用 交叉 验证 优化 。 

另 一 种 看 待 式 (4. 37) 的 方法 是 把 E’ 看 作 新 的 检验 数据 上 的 误差 。 右 边 的 第 一 项 是 训练 
误差 ， 而 第 二 项 是 估计 训练 与 检验 误差 之 间 偏 差 的 乐观 (optimism) 项 ( Hastie, Tibshirani 和 
Friedman 2001 ) 。 可 以 用 诸如 Akaike 信息 准则 (Akaike’s information criterion, AIC) 和 贝 叶 斯 
信息 准则 (Bayesian information criterion, BIC) 等 方法 估计 这 个 乐观 项 ， 并 把 它 加 到 训练 误差 
上 来 估计 检验 误差 ， 而 不 必 验 证 。 这 个 乐观 项 的 大 小 随 输 入 数 &( 这 里 是 上 +1) 线 性 增加 ， 
并 且 随 训练 集 的 大 小 NN 的 增加 而 减少 ; 它 还 随 添 加 噪声 的 方差 o (可 以 由 低 偏 倚 模 型 的 误差 
估计 ) 增 加 。 对 于 非 线 性 模型 ，d 应 该 代 之 以 参数 的 有效" 个 数 。 

结构 风险 最 小 化 (structural risk minimization, SRM) ( Vapnik 1995) 使 用 一 个 模型 集 ， 按 
它们 的 复杂 度 排序 。 一 个 例子 是 阶 递增 的 多 项 式 。 复 杂 度 一 般 由 自由 参数 的 数量 度量 。VC 
是 另 一 种 模型 复杂 度 的 度量 。 在 式 (4. 37) 中 ， 我们 可 以 使 用 递减 的 A; 来 得 到 复杂 度 递增 的 
模型 集合 。SRM 模型 选择 对 应 于 寻找 最 简单 并 且 在 数据 上 的 经 验 误 差 最 小 的 模型 。 

最 小 描述 长 度 (minimum description length，MDL) ( Rissanen 1978 ) 使 用 一 种 信息 论 度 量 。 
数据 集 的 Kolmogorov 复杂 度 定义 为 数据 最 短 描述 。 如 果 数 据 简 单 ， 它 就 有 短 的 复杂 度 ; 例 
如 ， 如 果 它 是 0 的 序列 ， 则 我 们 可 以 只 写 0 和 序列 的 长 度 。 如 果 数 据 完全 随机 的 ， 则 我 们 不 
能 够 有 比 数据 自身 更 短 的 数据 描述 。 如 果 一 个 模型 对 数据 是 合适 的 ， 则 它 有 一 个 好 的 数据 拟 
合 ， 我 们 可 以 发 送 /存储 数据 描述 而 不 是 数据 本 身 。 在 描述 数据 的 所 有 模型 中 ， 我 们 想 要 有 
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一 个 最 简单 的 模型 ， 那 样 它 就 可 以 有 最 短 描述 。 这 样 ， 我 们 又 一 次 要 在 模型 的 简单 性 和 它 解 
释 数 据 能 力 之 间 权 衡 。 

当 我 们 有 一 些 关于 近似 函数 的 合适 类 的 先 验 知识 时 ， 我 们 使 用 贝 叶 斯 模型 选择 ( Bayes- 
ian model selection) 。 这 种 先 验 知 识 被 定义 为 模型 的 先 验 分 布 p( 模 型 )。 给 定数 据 并 假定 一 个 
模型 ， 我 们 可 以 用 贝 叶 斯 规则 计算 p( 模 型 | 数据 ) : 

PC 数据 | 模型 )P( 模 型 ) 
P( 模 型 | 数据) = SRE) (4. 38) 

PC BRAY | 数据 ) 是 给 定 我 们 关于 模型 的 主观 先 验 知识 ( 即 p( 模 型 ) ) 和 数据 提供 的 客观 支 
持 ( 即 p( 数 据 | 模型 ) ) ， 模 型 的 后 验 概 率 。 我 们 可 以 选择 具有 最 高 后 验 概 率 的 模型 ， 或 者 用 
模型 的 后 验 概 率 加 权 ， 在 所 有 模型 上 取 平 均 。 

如 果 我 们 取 式 (4. 38) 的 对 数 ， 则 得 到 

log P( 模 型 | 数据) = log P( 数 据 1 模型 ) + log p( 模 型 ) -< (4. 39) 

这 具有 式 (4. 37) 的 形式 ; 数据 的 对 数 似 然 是 训练 误差 ， 而 先 验 的 对 数 似 然 是 罚 项 。 例 如 ， 
如 果 我 们 有 一 个 回归 模型 ， 并 使 用 先 验 p(w) ~ 和 (0，1AXA) ， 则 MAP 对 应 于 最 小 的 

E= Yl[r -ex lw)] +AD wi (4. 40) 


也 就 是 说 ， 我 们 寻找 降低 误差 并 且 尽 可 能 接近 0 的 w;， 而 我 们 希望 它们 接近 0 的 理由 是 
这 样 的 话 拟 合 的 多 项 式 会 更 平滑 。 随 着 多 项 式 阶 的 增加 ， 为 了 更 好 地 拟 合 数据 ， 函 数 将 上 下 
摆动 ， 意 味 着 系数 将 远离 0( 参 见 图 4-8) ; 当 加 上 这 个 罚 时 ， 我 们 强制 更 平坦 、 更 平滑 的 拟 
合 。 罚 多 少 依赖 于 入 ， 它 是 先 验方 差 的 逆 ， 即 我 们 期 望 先 验 的 权重 离 0 多 远 。 也 就 是 说 ， 有 
这 样 的 先 验 等 价 于 迫使 参数 接近 于 0。 我 们 将 在 第 14 章 更 详细 地 讨论 这 一 问题 。 


5r / 
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图 4-8 图 4-8 与 图 4-5 同样 的 设置 ， 拟 合 1 ~4 阶 多 项 式 。 系 数 的 大 小 随 多 项 式 阶 数 的 增加 而 增加 ， 它 们 
是 1:[ -0.0769，0.00116]7，2: [0. 1682, -0. 6657, 0.0080]", 3:[0.4238, -2. 5778 3.4675, 
-0.0002]7，4: [ -0. 1093, 1.4356, -5.5007, 6.0454, -0.0019]" 


ww ai bobt.com DOOO0O000 


81 
82 


83 








[82] 


50 第 4 章 











当选 择 先 验 使 得 最 简单 的 模型 具有 最 高 概率 时 (根据 奥 卡 姆 剃刀 规则 ) ， 贝 叶 斯 方法 、 
正则 化 、SRM 和 MDL 是 等 价 的 。 交 叉 验 证 与 其 他 模型 选择 的 方法 不 同 ， 因 为 它 不 对 模型 做 
任何 先 验 假设 。 如 果 有 足够 大 的 验证 数据 集 ， 它 就 是 最 好 的 方法 。 在 数据 样本 很 小 时 ， 其 他 
模型 变 得 有 用 。 


4.9 注释 


最 大 似 然 和 贝 叶 斯 估计 基础 的 一 个 好 资源 是 Ross 1987。 许 多 模式 识别 教材 都 讨论 参数 
模型 分 类 (例如 ，MacLachlan 1992; Devroye Gyérfi 和 Lugosi 1996; Webb 1999; Duda, Hart 
All Stork 2001 ) 。 检 查 一 元 正 态 性 的 检验 可 以 在 Rencher 1995 中 找到 。 

Geman, Bienenstock 和 Doursat( 1992 ) 讨论 了 几 个 学 习 模 型 的 偏 傈 和 方差 分 解 ， 这 些 
我 们 也 将 在 后 边 的 章节 讨论 。 偏 倚 / 方 差分 解 是 针对 回归 的 ; 对 于 0/1 损失 ， 误 差 的 这 种 
偏 位 、 方 差 和 品 声 的 加 法 分 解 是 不 可 能 的 ， 因 为 对 于 分 类 ， 如 果 意 外 落 到 边界 的 另 一 侧 
就 会 出 错 。 对 于 两 类 问题 ， 如 果 正 确 的 后 验 是 0.7， 而 估计 是 0.8， 则 没有 错误 ， 仅 当 佑 
计 小 于 0.5 时 才 出 错 。 对 于 分 类 ， 不 同 的 研究 者 提出 了 偏 位 和 方差 的 不 同 定 义 ， 综 述 参 见 
Friedman 1997 。 


4.10 习题 


1. 写 出 产生 以 给 定 的 为 参数 的 伯 努 利 样本 的 程序 ， 并 且 写 出 由 样本 计算 的 程序 。 

2. 写 出 多 项 样本 的 对 数 似 然 ， 并 证 明 式 (4.6) 。 

3. 写 出 产生 以 给 定 4，o 为 参数 的 正 态 样本 并 由 样本 计算 m As 的 程序 。 对 假定 先 验 分 
布 ， 用 贝 叶 斯 估计 做 相同 的 工作 。 

4. 给 定 两 个 正 态 分 布 plz | C) =N n, oF) AL p(x |C) ~N (m, 03) AR PCC, ) A 
PCC.) ， 解 析 地 计算 贝 叶 斯 判别 点 。 

5 在 高 斯 审 度 的 情况 下 ， 似 然 比 | C 是 什么 

6. 对 于 两 类 问题 ， 用 不 同 的 方差 为 两 个 类 产生 正 态 样本 ， 然 后 使 用 参数 分 类 法 估计 判别 点 。 
将 它 与 理论 值 进行 比较 。 

7. 假定 一 个 线性 模型 ， 然 后 加 入 0 均值 的 高 斯 噪声 来 产生 一 个 样本 。 把 样本 一 分 为 二 ， 分 
别 作为 训练 集 和 验证 集 。 在 训练 集 的 这 一 半 上 使 用 线性 回归 。 在 验证 集 上 计算 误差 。 对 2 
次 和 3 次 多 项 式 进行 同样 的 处 理 。 

， 当 训练 集 较 小 时 ， 方 差 对 误差 的 贡献 可 能 比 偏 倚 大 。 在 这 种 情况 下 ， 我 们 可 能 更 喜欢 简 
单 模型 ， 即 使 我 们 知道 对 于 我 们 的 任务 它 太 简单 。 你 能 给 出 一 个 例子 吗 ? 

9 假设 给 定 样本 X= (ah, l, RIELE) = 丰 ， 即 我 们 对 任意 * 的 估计 是 数据 集 xX 的 
第 一 个 实例 (未 排序 ) 的 + 值 。 与 &(x) =2 M g(a) E/N 相 比 ， 关 于 它 的 偏 倚 和 方差 
你 有 何 评论 ? 如 果 样 本 是 有 序 的 并 使 &(z) = mini, WILLA? 

10. 在 式 (4. 40) 中 ， 改 变 \ 对 偏 倚 和 方差 的 影响 是 什么 ? 
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在 第 4 章 ， 我 们 讨论 了 分 类 和 回归 的 参数 方法 。 现 在 ， 我 们 将 它们 推广 到 多 元 情况 ， 其 
中 我 们 有 多 个 输入 ， 并 且 输 出 ( 即 类 编码 或 连续 输出 ) 是 这 些 输入 的 函数 。 这 些 输入 可 能 是 
离散 的 或 数值 的 。 我 们 将 讨论 如 何 从 标记 的 多 元 样本 学 习 这 样 的 函数 ， 以 及 如 何 根据 已 有 数 


5. 1 多 元 数据 


在 许多 应 用 中 ， 许 多 测量 都 在 每 个 个 体 或 者 事件 上 进行 ， 并 产生 一 个 观测 向 量 。 样 本 可 
以 看 作 一 个 数据 矩阵 (data matrix) 


Xl Xek 
p X xX; wae x 
XY Xe = XY 


其 中 d 列 对 应 4 个 变量 ， 表 示 在 个 体 或 事件 上 的 测量 结果 。 它 们 也 称 为 输入 (input) 、 特 征 
(feature) 或 属性 (attribute) o N 行 对 应 在 个 个 体 或 事件 上 的 独立 同 分 布 的 观测 (observation ) 、 
#445] (example ) 8% & 4 (instance ) 。 

例如 ， 在 对 贷款 申请 做 决定 时 ， 观 测 向 量 是 与 客户 相关 的 一 些 信 息 ， 包 括 客户 的 年 龄 、 
婚姻 状况 、 年 收入 等 ， 并 且 我 们 有 NN 个 这 样 的 老 用 户 。 这 些 测量 也 许 有 不 同 的 尺度 ， 例 如 ， 
年 龄 用 年 计算 ， 年 收入 用 货币 单位 计算 。 某 些 (如 年 龄 ) 可 能 是 数值 的 ， 某 些 ( 如 婚姻 状况 ) 
可 能 是 离散 的 。 

通常 ， 这 些 变量 是 相关 的 。 如 果 它 们 不 相关 ， 就 没有 必要 做 多 元 分 析 。 我 们 的 目标 也 许 
是 化 简 (simplification) ， 也 就 是 用 相对 少 的 参数 汇总 大 量 数据 。 我 们 的 目标 也 许 是 探测 性 的 
(exploratory) ， 并 且 我 们 可 能 对 产生 关于 数据 的 假设 感 兴趣 。 在 有 些 应 用 中 ， 我们 对 由 其 他 
变量 的 值 预测 一 个 变量 值 很 感 兴趣 。 如 果 被 预测 变量 是 离散 的 ， 这 就 是 多 元 分 类 问题 ; 如 果 
是 数值 的 ， 这 就 是 多 元 回归 问题 。 


5.2 参数 估计 
均值 向 量 ( mean vector u 的 每 个 元 素 都 是 互 一 个 列 的 均值 : 
E(x] =m = [py mal" (5.1) 
X, 的 方差 记 作 o? ， 两 个 变量 X, AX, 的 协 方差 定义 为 
oy = Cov(X;,X,) = EL(X, — m;) (X; -4 )] = E[ X;X,] — hi hj (5.2) 


满足 o; =o;， 并 且 当 i=j 时 ， op =o7. 个 变量 就 有 d 个 方差 和 d(d -1)/2 个 协 方差 。 通 
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常 表示 为 d xd iM, PKA A £46 (covariance matrix), H E RaR, HBG, j) HR 
是 oj: 


Cl On Ord 
2 wae 
= On 2 Ta 
eae 2 
On On Oa 


对 角 线 上 的 元 素 是 方差 ， 非 对 角 线 上 的 元 素 是 协 方差 ， FFARR PRY. EHE 
阵 记号 
X = Cov(X) = E[(X -p)(X-p)") = E[XX"] -py (5.3) 
如 果 两 个 向 量 是 线性 相关 的 ， 则 协 方差 是 正 还 是 负 取 决 于 线性 关系 的 斜率 是 正 还 是 负 。 
但 是 相关 性 的 大 小 很 难 解 释 ， 因 为 它 取 决 于 两 个 变量 的 测量 单位 。 变 量 X 和 XX 的 相关 性 
(correlation ) 是 一 个 规范 化 到 -1 到 +1 之 间 的 统计 量 ， 定 义 为 
Corr(X,,X,) = p; = -2 (5.4) 
CriOri 
如 果 两 个 变量 是 相互 独立 的 ， 那 么 其 协 方差 为 0， 因 而 相关 性 为 0。 然 而 ， 其 逆 不 真 : 
变量 也 许 是 相关 的 (以 非 线性 方式 ) ， 并 且 它 们 的 相关 性 可 能 为 0。 
给 定 多 元 样本 ， 可 以 计算 这 些 参数 的 估计 : 均值 的 最 大 似 然 估计 是 样本 均值 严 。 它 的 第 
i AER X ASB i 列 的 平均 值 : 
m = ee Rpm = 一， 
E 的 估计 是 样本 协 方差 (sample covariance) EPE S, HECKE 
二 Xali T m;)? 
Si = Fae 
te Sa (5.7) 
它们 是 有 偏 估 计 ， 但 如 果 在 应 用 中 估计 的 变化 显著 依赖 于 我 们 用 w 还 是 用 N -1 KR, 
那么 我 们 将 遇 到 严重 的 麻烦 。 
样本 相关 (sample correlation ) 系数 








i=1,---,d (5.5) 


(5. 6) 


fy = (5.8) 
而 样本 的 相关 和 矩阵 及 包含 ry。 
5.3 缺失 值 估计 
观测 中 的 某 些 变 量 的 值 可 能 缺失 。 最 好 的 策略 是 把 这 些 观 测 一 同 丢弃 但是， 一般 我 们 
没有 足够 大 的 样本 来 让 我 们 这 样 做 ， 并 且 我 们 不 想 丢弃 数据 ， 因 为 非 缺 失 的 条 目 确实 包含 信 
息 。 我 们 试图 通过 估计 它们 来 填写 缺失 的 条 目 ， 这 被 称 作 估算 (imputation) 。 


HEH (a. 4% J (mean imputation) 中 ， 对 于 数值 变量 ， 我 们 用 现 有 数据 的 均值 (平均 值 ) 来 代 
替 样 本 中 的 变量 值 。 对 离散 变量 ， 我 们 用 最 可 能 出 现 的 值 ， 即 数据 中 出 现 最 多 的 值 ， 来 填写 
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在 回归 估算 (imputation by regression) 中 ， 我 们 试图 从 其 他 已 知 变量 的 值 来 预测 缺失 的 变 
量 值 。 根 据 缺 失 变量 的 类 型 ， 我 们 分 别 定义 一 个 回归 或 分 类 问题 ， 用 其 值 已 知 的 数据 点 训 
练 。 如 果 许 多 不 同 变量 都 缺失 ， 则 我 们 取 均 值 作为 初始 估计 ， 并 且 反 复 执 行 该 过 程 直 到 被 预 
测 的 值 稳定 。 如 果 这 些 变量 不 是 高 度 相 关 的 ， 则 回归 方法 与 均值 估算 等 价 。 

然而 ， 根 据 环 境 ， 有 时 特定 属性 值 的 缺失 也 许 会 很 重要 。 例 如 ， 在 信用 卡 申 请 中 ， 如 果 
申请 人 不 提供 他 或 她 的 电话 号 码 ， 那 也 许 是 一 条 关键 信息 。 在 这 样 的 情况 下 ， 我 们 用 一 个 单 
独 的 值 表 示 它 ， 指 明 该 值 缺失 并 照 此 使 用 。 


5.4 多 元 正 态 分 布 
在 多 元 情况 下 ， 其 中 x 是 d 维 、 正 态 分 布 的 ， 我 们 有 
1 1 Te -1 
p(x) = aa epee l- a —p) E(x -p) (5.9) 


并 且 我 们 记 x ~Na(u, Z), KPa 是 均值 向 量 ， 互 是 协 方差 矩阵 (参见 图 5-1) 。 正 如 


(x - u)? 
o 


= (x -u)(o°) ` (x -p) 


是 x Bll w 的 以 标准 差 为 单位 、 对 不 同 的 方差 规范 化 的 平方 距离 一 样 ， 在 多 元 情况 下 ,使 用 马 
氏 距 离 (Mahalanobis distance ) : 
(x -p)"S'(x -p) (5.10) 
(x-y) (x-y) =° 是 以 jw 为 中 心 的 d FER, JF AE BARA a pO BRE. 
由 于 使 用 了 的 逆 ， 所 以 如 果 一 个 变量 比 其 他 变量 的 方差 大 ， 则 它 在 马 氏 距离 中 的 权重 较 小 。 
类 似 地 ， 两 个 高 度 相 关 变 量 的 贡献 没有 两 个 相关 性 较 低 变 量 的 贡献 大 。 这 样 ， 使 用 协 方差 矩阵 
的 逆 具 有 将 所 有 变量 标准 化 (具有 单位 方差 ) 并 消除 相关 性 的 效果 。 








x 


图 5-1 二 元 正 态 分 布 


为 便于 显示 ， 让 我 们 考虑 二 元 情况 ， 其 中 d=2( 参 见 图 5-2)。 当 变量 独立 时 ， 密 度 的 主 
轴 与 输入 轴 平 行 。 如 果 方 差 不 同 ， 则 密度 变 成 椭圆 。 密 度 根据 协 方差 (相关 性 ) 的 符号 而 旋 
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转 。 均 值 向 量 为 jp = [jy] ， 协 方差 矩阵 通常 表示 为 


fa | ar | 


2 
POO: a2 


Cov (x x) =0, Var (x) =Var (x,) Cov (xp x) =0, Var (x,)>Var Cr) 


x; 


Cov (x x) >0 Cov (xp x) <0 


图 5-2 ”二 元 正 态 分 布 的 等 概率 围 线 图 。 其 中 心 由 均值 给 定 ， 其 形状 和 方向 依赖 于 协 方差 矩阵 
二 元 联合 密度 可 以 表示 为 如 下 形式 (见习 题 1 ) 


p(x, 5%) = rs [a — 2pz,z, + 22) | (5. 11) 
其 中 ,z= (x, -pi)Loi(i=1,2) 是 标准 化 变量 , 称 为 z- 规 范 化 (z-normalization)。 记 住 ， 当 
lp |<1 时 ， 


























z + 2p2,2Z, +2, = 常数 
是 椭圆 方程 。 当 p > 0 时 ,椭圆 的 主轴 有 正 斜 率 ， 当 p 二 0 时 ， 主 轴 有 人 负 和 斜率 。 

在 式 (5. 11) 的 扩展 马 氏 距离 中 ,每 个 变量 都 被 规范 化 ， 使 具有 单位 方差 ， 交 又 项 修正 
了 两 个 变量 之 间 的 相关 性 。 

概率 密度 依赖 于 五 个 参数 : 两 个 均值 、 两 个 方差 和 相关 性 。 只 要 方差 非 0 并 且 |3|1< 
1， 则 就 是 非 奇 异 的 ， 因 此 是 正定 的 。 如 果 p 是 +1 或 者 -1， 则 两 个 变量 是 线性 相关 的 ， 观 
测 事实 上 是 一 维 的 ， 两 个 变量 中 的 一 个 可 以 去 掉 。 如 果 p =0， 则 两 个 变量 是 独立 的 ， 交 叉 
项 消失 ， 我 们 得 到 两 个 一 元 密度 的 积 。 

在 多 元 情况 下 ， 小 的 | 允 | 值 表明 样本 接近 py， 正 如 单 变量 情况 ， 小 的 of 表示 样本 接近 凡 。 
小 的 | 对 | 还 表示 两 个 变量 之 间 的 高 度 相 关 性 。 是 对 称 正定 和 矩阵; 这 是 Var( X)>0 的 多 元 
说 法 。 否 则 ,是 奇异 的 ， 它 的 行列 式 的 值 为 0。 这 要 么 是 由 于 维 之 间 的 线性 依赖 性 ， 要 么 
是 因为 有 一 维 具 有 0 方差。 在 这 种 情况 下 ， 应 该 将 维度 归 约 为 正定 矩阵 ; 第 6 章 将 讨论 这 个 
问题 的 处 理 方法 。 

如 果 x ~WNa(，)， 则 x 的 每 个 维 都 是 一 元 正 态 的 。( 其 逆 不 真 : 每 一 个 X; 都 可 以 是 一 
元 正 态 的 ， 而 不 一 定 是 多 元 正 态 的 。) RE, BEKER k< d 的 子 集 都 是 上 元 正 态 的 。 
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一 个 特殊 的 情况 是 ，x 的 分 量 是 独立 的 ， 并 且 站 zj 时 Cov(X,, X,) =0, JE Var(X,) =0?， 
Wi。 于 是 ， 协 方差 知 阵 是 对 角 的 ， RAL AEA 
p(x) = Tc) - —1—e[-F¥ (| (5.12) 
(20) To, = i 
现在 ， 我 们 考察 另 一 个 性 质 ， 它 将 在 以 后 的 章节 中 用 到 。 我 们 假设 x ~ Nae, £), JE 
Hower, Jl 


T T 
WX = WX, + WNXy 十 … + Wyxy ~ N (wh,w zw | 


E[w'x] = w'E[x] = w'a (5.13) 
Var(w'x) = E[ (w'x - w'y)’ ] = EL (w'x - wp) (wx - wp) | 
= Ef[w (x -p)(x -p)'w] = w'El (x -p) (x -np) ]w 
= w' Ew (5. 14) 
这 就 是 说 ，d 维 正 态 分 布 在 向 量 w 上 的 投影 是 一 元 正 态 分 布 。 在 一 般 情 况 下 ， 如 果 W 
是 d xk 矩阵， 其 秩 k <=4d， 则 上 维 Wx 矩阵 是 上 元 正 态 分 布 : 
W'x ~ Ni (Wu, WEW) (5.15) 


也 就 是 说 ， 如 果 我 们 把 一 个 d EERDERE k EEH, MWEE k EES o 
5.5 多 元 分 类 
当 x eR 时， 如 果 取 类 条 件 密度 p(x | C;) 为 正 态 密度 Na(j;，;) ， 则 我 们 有 
p(x | C,) apts peerl-2e -pi) "E(x -pi) | (5. 16) 


这 样 做 的 主要 原因 是 它 分 析 简 单 (Duda、Hart 和 Stork 2001). 。 此 外 ， 正 态 分 布 密度 函数 是 许 
多 自然 现象 的 模型 ， 因 为 大 多 数 类 的 样本 都 可 以 看 作 是 简单 原型 A; 的 轻微 改变 版 本 ， 并 且 
协 方差 矩阵 L 表示 每 个 变量 中 的 噪声 量 和 这 些 噪声 源 的 相关 性 。 尽 管 真 实数 据 可 能 常常 并 
非 是 严格 多 元 正 态 的 ,但 是 这 是 一 个 有 用 的 近似 。 除 了 它 易于 进行 数学 处 理 外 ， 该 模型 对 偏 
离 正 态 分 布 的 鲁 棱 性 在 许多 工作 中 都 展示 出 来 (例如 McLachlan 1992 ) 。 然 而 ， 一 个 明显 的 要 
求 是 一 个 类 的 样本 应 该 形成 单个 组 ; 如 果 有 多 个 组 ， 应 该 使 用 混合 模型 (第 7 章 )。 

假设 我 们 要 预测 顾客 可 能 感 兴趣 的 汽车 类 型 。 不 同 的 汽车 是 类 ， 而 x 是 顾客 的 可 观测 数 
据 ， 例 如 年 龄 和 收入 。A; 是 购买 i 类 汽车 的 顾客 年 龄 和 收入 的 均值 向 量 ， 而 名, 是 它们 的 协 方差 矩 
阵 : oa 和 oo 分别 是 年 龄 和 收入 的 方差 ， 并 且 oo 是 购买 ; 类 汽车 的 顾客 年 岭 和 收入 的 协 方差 。 

当 我 们 定义 判别 式 函 数 为 

gi(X) = log p(x | Ci) + log P(C;) 

并 假定 p(x | C) ~Na(w,, YM, RTA 


gi(x) =- Slog 2a - Hog | $; | -E(x -p)" E(x -ps) + log P(C) (5.17) 


给 定 K=2 个 类 的 训练 样本 X= ix, r), Epik x eC, Mrl, BWO, AIX 
每 个 类 求 最 大 似 然 ， 从 而 找到 均值 和 协 方 差 的 估计 : 
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A x = 2r: 
PCC) e (5.18) 
£ rix’ 
m: = 
O r 
g, a Bix =m) (x! =m)" 
a Er 
然后 ， 将 这 些 代 入 判别 式 函 数 ， 得 到 判别 式 的 估计 。 忽 略 第 一 个 常数 项 ， 我 们 有 
=- Jog IS,| - 36 =- mm) Sx -m,) + log P(C,) (5.19) 
把 它 展开 ， 我 们 得 到 
g(x) =- Hog |S, | - (x'S7'x - 2x"S;'m, + m!S;'m,) + log PCC.) 
它 定义 了 一 个 二 次 判别 式 (quadratic discriminant) (参见 图 5-3) ， 也 可 以 写作 
g(x) =x'W.x + wx + wi (5. 20) 








i 


图 5-3 ”类 具有 不 同 的 协 方差 矩阵 。 其 中 一 个 是 类 的 似 然 密度 和 后 验 概率 ( 顶部 ) 。 
类 分 布 用 等 概率 围 线 表 示 ， 并 且 绘 出 判别 式 ( 底 部 ) 
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其 中 
_ ben 
W = 78 
w; = Si'm 
l- rga 1 人 ~ 
wio =- 了 mi S; m; 一 了 log | S; | + log P(C,) 


对 于 均值 ， 需 要 估计 的 参数 数量 为 K. dS, MRP OT 2 REA K « d(d+1)/2 个 。 
M d 大 而 样本 小 时 ，5; 可 能 是 奇异 的 ， 并 且 其 逆 可 能 不 存在 。 或 者 ，| $; | 可 能 非 零 但 是 太 
小 ， 这 种 情况 会 不 稳定 ; S 的 小 变化 会 引起 $i" 的 大 变化 。 为 了 使 小 样本 上 的 估计 可 靠 ， 
我 们 可 能 希望 通过 重新 设计 特性 提取 算法 并 选择 特征 子 集 ， 或 者 组 合 已 有 特征 来 降低 维度 
d。 我 们 将 在 第 6 章 讨论 这 样 的 方法 。 

另外 一 个 可 能 的 做 法 是 汇集 数据 ， 并 且 对 所 有 的 类 估计 公共 协 方差 矩阵 : 


S = È P(C)S. (5.21) 
ERIE 的 情况 下 ， 式 (5. 19) 化 简 为 
g(x) =- T(x -m,)'S" (x —m,) + log P(C,) (5. 22) 


对 于 均值 ， 参 数 数量 为 Kd 个 ， 而 对 于 共享 协 方差 矩阵 为 4(d +1)/2 个 。 如 果 先 验 相 
等 ， 则 最 佳 决策 规则 是 把 输入 指派 到 与 输入 均值 的 | 
马 氏 距离 最 小 的 类 。 像 前 面 一 样 ， 不 相等 的 先 验 将 
边界 移 向 不 太 可 能 的 类 。 注 意 在 这 种 情况 下 ， 二 次 | 
Mix Ss zx 被 取消 ， 因 为 它 出 现在 所 有 的 判别 式 
中 ,并且 决策 边界 是 线性 的 ， 导 致 如 下 线性 判别 
X, (linear discriminant ) (图 5-4) 


B(x) = wx + wy (5.23) O) 
其 中 


al 
w =S m; 


—— 





A5-4 协 方差 可 以 是 任意 的 ， 但 是 被 
这 种 线性 分 类 器 的 决策 区 域 是 凸 的 ， 即 在 一 两 个 类 共享 
个 决策 区 域内 任意 选择 两 个 点 并 用 一 条 直线 连接 ， 直 线 上 的 所 有 点 都 落 在 该 区 域内 。 
通过 假定 协 方 差 矩 阵 的 所 有 非 对 角 线 元 素 均 为 零 ， 从 而 假定 变量 都 是 独立 的 ， 问 题 可 以 
一 步 简 化 。 这 是 朴素 贝 叶 斯 分 类 (naive Bayes’ classifier), HEP p(x | Ci) 是 一 元 高 斯 的 。S 
和 它 的 首都 是 对 角 的 ， 并 且 我 们 有 


gia) a [| + log P(C) (5.24) 


项 ((x —m,)/s,)? 有 规范 化 作用 并 以 标准 差 为 单位 度量 距离 。 从 几何 学 角度 来 说 ， 类 是 
超 椭圆 体 ， 并 且 因 为 协 方差 为 零 ， 它 还 是 轴 对 齐 的 ( 见 图 5-5)。 对 于 均值 ， 参 数 的 数量 为 K+ d, 
而 对 于 方差 为 4。 这样 ，5 的 复杂 度 由 @( 必 ) 降低 为 O(d) 。 





wo =- mlS im + log PCC.) 
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如 果 我 们 假定 所 有 的 变量 是 等 同 的 ， 马 氏 距 离 归 结 为 欧 氏 距离 (Euclidean distance), ， 问 题 还 
可 以 进一步 简化 。 在 几何 图 像 上 ， 分 布 是 球形 的 ， 并 以 均值 向 量 om, 为 中 心 ( 见 图 $-6) 。 于 
E, [S] =s} HS ”=(1/s )1。 参 数 是 Kd 个 均值 和 一 个 o 
-m, || 


| x i 
2s? 


2 d 
gfx) e- + log P(C,) == 59) (4 ~m,)? + log B(C,) (5.25) 
ja 











a (a a L 





I 


图 5-5 所 有 的 类 都 具有 相等 的 对 角 协 方差 , 但 。 图 5-6 所 有 类 具有 相等 的 、 在 两 个 维 上 均 具 有 
是 方差 不 相等 相等 方差 的 对 角 协 方差 矩阵 











如 果 先 验 相等 ， 则 我 们 有 g,(x) = - | xz —m, | ”。 这 被 称 为 最 近 均 值 分 类 (nearest mean 
classifier) ， 因 为 它 把 输入 指派 到 最 近 均 值 的 类 。 如 果 每 个 均值 都 被 看 作 是 类 的 理想 原型 或 
模板 ， 那 么 这 就 是 模板 匹配 (template matching) 过 程 。 它 可 以 被 扩展 为 


g(x) =- ||x —m, ||? =- (x -m,)"(x -m,) 
=- (x'x —2m'x + m!'m,) (5. 26) 
第 一 项 rz 出 现在 所 有 的 g&(z) 中 ， 可 以 去 掉 ， 并 且 我 们 可 以 把 判别 式 函 数 写成 
g(x) = WX + wo (5.27) 


其 中 mi =m,, wo = - (1/2) |m, |7. WRIA H m, 有 相似 的 范 数 ， 则 wio 也 可 以 忽略 ， 并 
且 我 们 可 以 使 用 
g(x) = mx (5. 28) 

当 m, 的 范 数 可 比较 时 ， 也 可 以 使 用 点 积 代替 ( 负 的 ) 欧 氏 距 离 作为 相似 性 度量 。 

我 们 实际 上 可 以 把 寻找 最 佳 判别 函数 的 任务 看 作 是 寻找 最 佳 距离 函数 。 这 可 以 被 看 作 
是 另外 一 种 分 类 方法 : 我 们 不 是 要 学 习 判 别 式 函 数 g;(x) ， 而 是 要 学 习 一 个 合适 的 距离 函数 
D(x, x), (EMER zx x, x, Hx, x, 属于 相同 的 类 ， 而 x,， x 属于 两 个 不 同 
的 类 ， 我们 希望 有 

D(xi,x,) < D(x, »X3) 


5.6 调整 复杂 度 98 


在 表 5-1 中 ,我 们 看 到 如 何 减少 协 方差 矩阵 的 参数 数目 ， 在 简单 模型 的 适用 性 和 通用 性 22 
之 间 折 中 。 这 是 偏 倚 / 方 差 两 难 选择 的 又 一 个 例子 。 当 我 们 做 简化 协 方差 矩阵 的 假设 并 降低 
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被 估计 的 参数 数目 时 ， 我们 就 有 引进 偏 倚 的 风险 (参见 图 5-7)。 另 一 方面 ， 如 果 不 做 这 种 假 
Be, 并 且 和 矩阵 是 任意 的 ， 则 二 次 判别 式 函 数 在 小 数据 集 上 会 有 很 大 的 方差 。 理 想 情 况 取 决 于 
已 有 数据 所 表示 的 问题 的 复杂 度 和 我 们 所 拥有 的 数据 的 规模 。 当 我 们 拥有 小 数据 集 时 ， 尽 管 
协 方差 矩阵 不 同 ， 但 是 假定 共享 协 方差 矩阵 也 许 更 好 ; 单个 协 方差 窃 阵 具有 较 少 参数 ， 并 且 
可 以 利用 更 多 的 数据 来 估计 ， 即 用 所 有 类 的 实例 估计 。 这 相当 于 使 用 线性 判别 式 (linear dis- 
criminant) 。 分 类 经 常用 到 线性 判别 式 ， 我 们 将 在 第 10 章 更 详细 地 讨论 它 。 
表 5-1 通过 简化 假设 降低 方差 
协 方差 矩阵 














S; =S=s27 1 
共享 、 轴 对 齐 5; =S， 其 中 5; =0 d 
共享 、 超 椭 球 Si =S d(d+1)/2 


K - (d(d+1)/2) 





J 
© 一 N w > 





图 S-7 拟 合 相 同 数据 的 不 同 协 方差 矩阵 导致 不 同 的 边界 

注意 ， 当 我 们 用 欧 氏 距离 度量 相似 性 时 ， 我 们 假设 所 有 的 变量 都 具有 相同 的 方差 ， 并 且 它 
们 是 相互 独立 的 。 在 许多 情况 下 ， 这 并 不 成 立 。 例 如 ， 年 龄 与 年 收入 具有 不 同 的 单位 ， 并 且 在 
许多 情况 下 是 相关 的 。 在 这 种 情况 下 ， 可 以 在 预 处 理 阶 段 对 输入 进行 Se (BA 0 均值 和 
单位 方差 ) ， 然 后 使 用 欧 氏 距 离 。 另 一 方面 ， 有 些 时 候 即 使 变量 是 相关 的 ， 如 果 我 们 没有 足够 
的 数据 准确 地 计算 相关 性 ， 也 许 最 好 还 是 假设 它们 不 相关 ， 并 使 用 朴素 贝 叶 斯 分 类 。 

Friedman (1989 ) 提出 一 个 组 合 所 有 这 些 特 丈 情 况 的 方法 ， 称 为 正则 化 判别 式 分 析 (regularized 
discriminant analysis，RDA) 。 我 们 还 记得 ， 正 则 化 方法 对 应 于 从 大 方差 开始 到 小 方差 的 方法 ， 
有 增加 偏 傈 的 风险 。 在 利用 高 斯 密度 的 参数 化 分 类 情况 下 ， 协 方差 矩阵 可 以 表示 成 三 种 特殊 
情况 的 加 权 平 均 : 

S! = ar'l +BS + (1 -a -B)S; (5.29) 

当 w=B=0 时 ， 我 们 得 到 二 次 分 类 器 。 当 wa =0, B=1 时 ， 协 方差 矩阵 被 共享 ， 我 们 
得 到 线性 分 类 器 。 当 a =1, B=0 时 ， 协 方差 矩阵 是 对 角 阵 ，e- 在 对 角 线 上 ， 我 们 得 到 最 
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近 均 值 分 类 。 在 这 些 极端 情况 之 间 ， 我 们 得 到 所 有 的 不 同 分 类 方法 ， 其 中 a 和 有 通过 交 
又 确认 优化 。 

当 数据 集 较 小 时 ， 马 一 种 正则 化 方法 是 通过 定义 Hi; AS, 上 的 先 验 ， 使 用 贝 叶 斯 方法 ， 
或 者 使 用 交叉 验证 选择 表 5-1 中 给 出 的 四 种 情况 中 最 好 者 。 


5.7 离散 特征 


在 许多 应 用 中 ， 我 们 有 取 个 不 同 值 的 离散 属性 。 例 如 ， 一 个 属性 可 能 是 颜色 e | 红 
蓝 ， 绿 ， 黑 上 | ， 另 外 一 个 可 能 是 像素 es | 有 ， 无 | 。 我 们 假设 % 是 二 元 的 ( 伯 努 利 ) ， 其 中 
py = p(x; =1/C,) 
ME x 是 独立 的 二 元 变量 ， 则 我 们 有 


pæle) = HG -ao 


这 是 朴素 贝 叶 斯 分 类 的 另 一 个 例子 ， 其 中 p(x, | C 是 伯 努 利 分 布 。 判 别 式 函 数 是 
gi(x) = log p(x|C,) + log P(C,) 
= > [x log py + (1 - x;)log(1 - p,;)] + log P(C;) (5. 30) 

它 是 线性 的 。p; 的 估计 是 
2r; 

这 种 方法 用 于 文档 分 类 (document categorization ) 。 文 档 分 类 的 一 个 例子 是 把 新 闻 报 道 分 
成 不 同 的 类 别 ， 如 政治 、 体 育 、 时 尚 等 类 别 。 在 词 党 (bag of words) 表示 中 ， 预 先 选择 d 个 
我 们 相信 能够 提供 与 类 相关 的 信息 的 词 ( Manning 和 Schütze 1999 ) 。 例 如 ， 在 新 闻 分 类 中 ， 
有 用 的 词 是 诸如 missile 、athlete 和 couture 这 样 的 词 ， 而 不 是 像 model 甚至 是 runaway 这 样 有 
歧义 的 词 。 在 这 种 表示 下 ， 每 个 文本 是 一 个 d 维 二 元 向 量 ， 其 中 如 果 第 j 个 词 出 现在 该 文档 
H, MK, BW a 为 0。 注 意 : 这 种 表示 损失 了 词 的 所 有 序 信息 ， 因 而 称 作词 袋 (bag) o 

训练 后 ， 启 估计 第 7 个 词 出 现在 文档 类 型 中 的 概率 。 其 概率 在 不 同类 中 都 类 似 的 词 不 
传递 多 少 信息 。 词 要 成 为 有 用 的 ， 我们 希望 它 的 概率 在 一 个 (或 少数 ) 类 上 高 ， 而 在 其 他 类 
上 都 低 。 我 们 将 在 第 6 章 讨论 这 种 类 型 的 特征 选择 (feature selection)。 文 档 分 类 应 用 的 另 一 
个 例子 是 垃圾 邮件 过 滤 (spam filtering)， 其 中 邮件 被 分 为 垃圾 邮件 和 正常 邮件 两 类 。 同 样 ， 
在 生物 信息 学 中 ， 无 论 碱 基 对 还 是 氨基 酸 ， 输 入 通常 也 都 是 离散 项 的 序列 。 

在 一 般 情况 下 ,我们 假定 x BEART IO, v, oy Vy) 。 我 们 定义 新 的 0/1 哑 变 量 

= [’ WRX, = vy 
0 Ew 
S pj 表示 属于 类 C, BUEN v, 的 概率 
Pig = pz =1 | C;) = p(x; = v; | C;) 

如 果 属 性 是 独立 的 ， 则 我 们 有 


By = (5.31) 


plc) = [I [Jež (5.32) 
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于 是 ， 判 别 式 函数 为 





g(x) = > Dz log pix + log P(C;) (5. 33) 
Pi = ee i (5.34) 
可 以 将 它们 代入 式 (5. 33) 中 ， 得 到 判别 式 。 
5.8 多 元 回归 


在 多 元 线性 回归 (multivariate linear regression) 中 ， 假 定数 值 输出 r 为 线性 函数 ， 即 一 些 
103] 输入 变量 x,，…，xs 和 噪声 的 加 权 和 。 实 际 上 ， 在 统计 学 中 ， 这 称 为 多 元 (multiple) 回归 ; 
当 存在 多 个 输出 时 ， 统 计 学 家 使 用 术语 multivariate( 多 元 ) 。 多 元 线性 模型 是 





r = g(x |wg,w, ,Wy) +E = Wy +wx, +wx, +o + wax) +e (5. 35) 

与 一 元 情况 相同 ， 我 们 假设 是 正 态 的 ， 具 有 0 均值 和 常数 方差 。 最 大 化 该 似 然 等 价 于 
最 小 化 平方 误差 之 和 : 

E(w, w, ,wa Ix) => (r! — wy — Wx, 一 202X2 一 (5. 36) 


对 参数 w (j=0，…，d) 求 导 ， 我 们 得 到 正规 方程 (normal equation) : 
Dir = Nw tw Vix, +w, Dry te +w) xy (5.37) 


2 
DY xir = we Vx tw, Y (xi)? +w, FY aie, to + wy xix 
t t t t 上 
2 
xr = Wy > x, +w, > 41% + ws (x3) ”十 … 十 Wa >, Xe 
t t t t t 
t t 2 
> r = w 》 x4 +w) X xyr, + w, $, x43 +e +w,>, (x4) 
t t t t t 


我 们 定义 如 下 的 向 量 与 矩阵 : 


l x, «x e. g! 1 
1 2 d Wo 


e 
x= 1 xf x can pal” fa 3 
1 x xy vee gl Wy r“ 
于 是 ， 正 规 方程 可 以 写 为 
X'Xw = X'r (5. 38) 
并 且 我 们 可 以 求解 参数 
w = (XX) "X's (5.39) 


这 个 方法 与 我 们 在 单个 输入 的 多 项 式 回 归 中 所 使 用 的 方法 一 样 。 如 果 我 们 定义 变量 为 
xi =x, mx, e, Ni =x*， 则 两 个 问题 是 一 样 的 。 这 也 提示 我 们 ， 如 果 需 要 的 话 ， 如 何 做 
多 元 多 项 式 回归 (multivariate polynomial regression) (参见 习题 7)。 但 是 ， 除 非 d fb, A 

在 多 元 回归 中 ， 我 们 很 少 使 用 比 线性 更 高 阶 的 多 项 式 。 
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实际 上 ， 使 用 输入 的 高 阶 项 作为 附加 的 输入 只 是 一 种 可 能 的 方法 ， 我 们 可 以 使 用 基 os ak 
( basis function ) 定义 原始 输入 的 任意 非 线性 函数 。 例 如 ， 如 果 我 们 相信 这 种 变换 是 有 用 的 ， 
可 以 定义 新 的 输入 和 =sin(x), x, = exp(x*)。 然 后 ， 在 这 种 新 扩展 的 空间 中 使 用 线性 模型 
对 应 于 原 空 间 中 的 非 线 性 模型 。 同 样 的 计算 仍然 有 效 ， RIR T FE EF SK PB Js 
阵 蔡 换 了。 正如 我 们 将 在 各 种 形式 下 (例如 ， 多 层 感 知 嚣 、 支 持 向 量 机 、 高 斯 过 程 ) 所 看 到 
的 ， 这 些 形式 经 常用 这 样 的 方法 推广 线性 模型 。 

线性 模型 的 一 个 优点 是 ， 回 归 之 后 ， 观 察 wj(j =1，…，d) 的 值 ， 我 们 可 以 提取 知识 : 
首先 ， 观察 w 的 符号 ， 我 们 就 知道 % 对 输出 结果 的 影响 是 正 的 还 是 负 的 ; 第 二 ， 如 果 所 有 
的 x 具有 相同 的 值 域 ， 则 通过 观测 wj 的 绝对 值 ， 我 们 可 以 知道 特征 的 重要 性 ， 并 按 重 要 性 
为 特征 定 秩 ， 甚 至 可 以 去 掉 那 些 wj 接近 于 0 的 特征 。 

当 有 多 个 输出 时 ， 可 以 等 价 地 定义 一 组 独立 的 单 输出 回归 问题 。 


5.9 注释 


一 本 更 新 我 们 的 线性 代数 知识 的 好 书 是 Strang 1988。Harville 1997 是 另外 一 本 很 好 的 
书 ， 它 从 统计 学 的 角度 处 理 和 矩阵 代数 。 

用 多 元 数据 的 一 个 不 便 之 处 是 ， 当 维 数 很 大 时 ， 不 能 够 进行 可 视 分 析 。 统 计 学 文献 中 已 
经 提出 了 一 些 方法 ， 来 显示 多 元 数据 ; Rencher 1995 给 出 了 综述 。 一 种 可 能 的 方法 是 两 两 变 
量 绘制 二 元 散 点 图 : 如 果 数 据 是 多 元 正 态 的 ， 则 任意 两 个 变量 的 图 应 该 是 大 致 上 线性 的 ; 这 
可 以 用 作 多 元 正 态 性 的 视觉 检测 。 我 们 将 在 第 6 章 中 讨论 的 另外 一 个 可 能 的 方法 是 把 它们 投 
影 到 一 维 或 两 维 上 ， 并 在 那里 显示 。 

模式 识别 的 大 部 分 工作 都 是 在 假定 多 元 正 态 密度 上 进行 的 。 有 时 ， 这 样 的 判别 式 其 至 被 
称 为 贝 叶 斯 最 优 分 类 ， 但 是 这 通常 是 错误 的 ; 只 有 当 密 度 确 实 是 多 元 正 态 的 ， 并 且 我 们 有 足 
够 的 数据 来 计算 正确 的 参数 时 ， 它 才 是 最 优 的 。Rencher 1995 讨论 了 评估 多 元 正 态 性 的 检 
验 ， 以 及 检查 相等 协 方差 矩阵 的 检验 。MeLachlan 1992 讨论 了 用 多 元 正 态 分 布 分 类 ， 并 且 比 
较 了 线性 和 二 次 判别 式 。 

多 元 正 态 分 布 的 一 个 明显 的 约束 是 它 不 允许 某 些 特征 是 离散 型 数据 。 一 个 具有 个 可 能 
值 的 变量 可 以 被 转化 成 4 个 0/1 哑 变 量 , 但 是 这 增加 了 维度 。 我 们 可 以 用 第 6 章 中 介绍 的 方 
法 在 这 个 n 维 空间 上 进行 维度 归 约 ， 从 而 不 会 增加 维度 。 对 于 这 种 混合 特征 的 参数 分 类 ， 
McLachlan 1992 有 详细 的 讨论 。 


5.10 “习题 


. 证 明 式 (5. 11). 

2. 从 多 元 正 态 密度 N (wm, LD) 产生 一 个 样本 ,计算 m AS 并 将 它们 与 和 比较。 检查 样 
本 大 小 变化 时 估计 的 变化 情况 。 

3. 从 两 个 多 元 正 态 密度 NW (py;，,)(i=1, 2) 产 生 样本 ， 并 对 表 5-1 中 的 四 种 情况 计算 贝 叶 
斯 最 优 判别 式 。 

4. 对 于 两 类 问题 ， 针 对 表 5-1 中 高 斯 密度 的 四 种 情况 ， 推 导 : 


— 
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i P(C, |x) 
"PG la) 
5. 使 用 高 斯 密度 的 另 一 种 可 能 方法 是 令 它 们 都 是 对 角 的 ， 但 允许 它们 不 同 。 为 这 种 情况 推 
导 判 别 式 。 
6. 假设 在 二 维 空间 有 两 个 具有 相同 均值 的 类 。 可 以 定义 何 种 类 型 的 边界 ? 
7. 假设 我 们 有 两 个 变量 x 和 x,， 并 且 我 们 想 对 它们 做 二 次 拟 合 ， 即 
SFC %, %_) = wo +wx, +wx, + wxx, + Wal Xi) +w; (x)? 
给 定 样 本 X= | xi, x2 ri, WIERE w (i0, =, 5)? 
8. 在 回归 中 我 们 看 到 拟 合 一 个 二 次 模型 等 价 于 用 对 应 于 输入 平方 的 附加 输入 拟 合 一 个 线性 
模型 。 对 于 分 类 我 们 也 能 这 样 做 吗 ? 
9. 在 文档 聚 类 中 ， 通 过 考虑 上 下 文 ， 例 如 考虑 诸如 “cocktail party” 4j“ party elections” 中 的 词 
对 ， 可 以 减少 二 义 性 。 讨 论 这 一 点 如 何 实现 。 
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维度 归 约 





任何 分 类 器 和 回归 器 的 复杂 度 都 依赖 于 输入 的 数量 。 这 决定 了 时 间 和 空间 的 复杂 度 以 及 
训练 这 样 的 分 类 器 和 回归 器 所 需要 的 训练 样 例 数量 。 本 章 ， 我们 讨论 特征 选择 和 特征 提取 方 
法 。 前 者 选取 重要 特征 子 集 并 剪 掉 其 余 特征 ， 而 后 者 由 原始 输入 形成 较 少 的 新 特征 。 


6.1 引言 


在 一 个 应 用 中 ， 无 论 它 是 分 类 还 是 回归 ， 我 们 确信 含有 信息 的 观测 数据 都 被 用 作 输 入 并 
且 输 入 到 系统 中 来 做 决策 。 理 想 情况 下 ， 我 们 不 应 该 将 特征 选择 或 特征 提取 作为 一 个 单独 的 
进程 ; 分 类 方法 (或 回归 方法 ) 应 该 能 够 利用 任何 必要 的 特征 ， 而 丢弃 不 相关 的 特征 。 然 而 ， 
有 许多 原因 使 得 我 们 对 把 降 维 作为 一 个 单独 的 预 处 理 步骤 感 兴趣 : 
a 在 大 多 数学 习 算 法 中 ， 复 杂 度 依赖 于 输入 的 维度 d 和 数据 样本 的 规模 W， 并 且 为 了 
减少 存储 量 和 计算 时 间 ， 我 们 对 降低 问题 的 维度 感 兴趣 。 降 低 d 也 降低 了 检验 时 推 
理 算法 的 复杂 度 。 
a 当 一 个 输入 被 认定 并 不 必要 时 ， 我们 就 节省 了 提取 它 的 开销 。 
a 较 简单 的 模型 在 小 数据 集 上 更 为 鲁 棒 。 较 简单 的 模型 具有 和 较 小 的 方差 ， 也 就 是 说 ， 
它们 的 变化 更 少 地 依赖 于 样本 的 特殊 性 ， 包 括 噪声 、 离 群 点 等 。 
e 当 数 据 能 够 用 较 少 特征 解释 时 ， 我 们 就 能 够 更 好 地 理解 解释 数据 的 过 程 ， 这 使 得 我 
们 能 够 提取 知识 。 
a 当 数 据 可 以 用 少数 维 表示 而 不 丢失 信息 时 ， 我 们 可 以 对 数据 绘图 ， 并 可 视 化 地 分 析 
它 的 结构 和 离 群 点 。 
降低 维度 的 主要 方法 有 两 种 : 特征 选择 和 特征 提取 。 在 特征 选择 (feature selection) 中 ， 
我 们 感 兴趣 的 是 从 d 维 中 找 出 为 我 们 提供 最 多 信息 的 个 维 ， 并 且 丢 弃 其 他 的 (d - bk) PE. 
作为 一 种 特征 选择 方法 ， 我 们 将 要 讨论 子 集 选择 (subset selection) 。 
在 特征 提取 (feature extraction) 中 ， 我 们 感 兴趣 的 是 找 出 上 个 维 的 新 集合 ， 这 些 维 是 原来 
d 个 维 的 组 合 。 这 些 方法 可 以 是 监督 的 ,也 可 以 是 非 监 督 的 ， 这 取决 于 它们 是 否 使 用 输出 信 
息 。 最 著名 和 最 广泛 使 用 的 特征 提取 方法 是 主 成 分 分 析 (PCA) 和 线性 判别 分 析 (LDA)。 它 
们 都 是 线性 投影 方法 ,分 别 是 非 监 督 和 监督 的 。PCA 与 其 他 两 种 非 监督 的 线性 投影 方法 有 
许多 相似 之 处 ， 我 们 也 将 讨论 这 两 种 方法 一 一 因子 分 析 (FA) 和 多 维 定 标 ( MDS)。 作 为 非 线 
性 维度 归 约 的 例子 ， 我 们 将 考察 等 距 特征 映射 (Isometric feature mapping, Isomap) 和 局 部 线性 
# A (Locally Linear Embedding, LLE) 。 


6.2 FREF 
在 子 集 选 择 ( subset selection) 中 ， 我 们 对 发 现 特征 集中 的 最 佳 子 集 感 兴趣 。 最 佳 子 集 包 
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含 的 维 最 少 ， 而 它们 对 正确 率 的 贡献 最 大 。 我 们 丢弃 剩余 的 不 重要 的 维 。 使 用 一 个 合适 的 误 
差 函 数 ， 最 佳 子 集 在 回归 和 分 类 问题 中 都 可 以 使 用 。d 个 变量 有 2 个 可 能 子 集 , 但 是 除非 d 
很 小 ， 否 则 我 们 不 能 对 所 有 子 集 进行 检验 。 我 们 使 用 启发 式 的 方法 ， 在 合理 的 (多 项 式 ) 时 
间 内 得 到 一 个 合理 的 (但 不 是 最 优 的 ) 解 。 

有 两 种 方法 : 在 向 前 选择 (forward selection) 中 ， 我 们 从 空 集 开始 ， 逐 个 添加 它们 ， 每 次 
添加 一 个 降低 误差 最 多 的 变量 ， 直 到 进一步 的 添加 不 会 降低 误差 (或 降低 很 少 ) 。 在 向 后 选 
择 (backward selection) 中 ， 我 们 从 所 有 变量 开始 ， 逐 个 排除 它们 ， 每 次 排除 一 个 降低 误差 最 
多 (或 提高 很 少 ) 的 变量 ， 直 到 进一步 的 排除 会 显著 提高 误差 。 在 这 两 种 情况 下 ， 误 差 检测 
都 应 该 在 不 同 于 训练 集 的 验证 集 上 进行 ， 因 为 我 们 想 要 检验 泛 化 准确 率 。 使 用 更 多 的 特征 ， 
我 们 一 般 会 有 更 低 的 训练 误差 .但 是 不 一 定 有 更 低 的 验证 误差 。 

我 们 用 表示 输入 维 的 特征 x;(i=1，…，d) 的 集合 ，E(F) 表 示 当 我 们 只 使 用 中 的 输入 
时 ， 在 验证 样本 上 出 现 的 误差 。 依 赖 于 应 用 ， 误 差 或 者 是 均 方差 误差 . 或 者 是 误 分 类 错误 。 

在 顺序 向 前 选择 ( sequential forward selection) 中 ,我 们 从 = 名 开 始 。 每 一 步 中 ， 我 们 针 
对 所 有 可 能 的 x;， 训 练 我 们 的 模型 并 在 验证 集 上 计算 E(FUzx;)。 然 后 ， 我 们 选择 导致 最 小 
误差 的 输入 x 

j = arg min E(F U x,) (6.1) 
并 且 我 们 
x, 添加 到 五 中 ,如 果 E(F U x) <E(F) (6.2) 

如 果 添 加 任何 特征 都 不 会 减少 EE， 则 我 们 停止 。 如 果 误 差 降低 太 小 ， 我 们 其 至 可 以 决定 
提前 停止 ; 这 里 存在 一 个 用 户 定义 的 浆 值 ， 依 赖 于 应 用 约束 以 及 错误 和 复杂 度 的 折 中 。 增 加 
另外 一 个 特征 带 来 观测 该 特征 的 开销 ， 也 会 使 分 类 器 /回归 器 更 加 复杂 。 

这 样 的 过 程 也 许 开 销 很 大 ， 因 为 将 d 维 减 少 到 大 维 ， 我 们 需要 训练 和 测试 系统 dt+(d- 
1) +(d-2) +…+(d-k) 次 ,其 复杂 度 为 0(d?)。 这 是 一 个 局 部 搜索 过 程 ， 并且 不 能 保证 
找到 最 佳 子 集 ， 即 导致 最 小 误差 的 最 小 子 集 。 例 如 ，x; 和 x 本 身 可 能 不 好 ,但 是 合 起 来 却 
可 能 会 把 误差 降低 很 多 。 但 是 该 算法 很 贪 禁 ， 逐 个 增加 特征 ， 因 此 它 也 许 不 能 发 现 x 与 x 
的 并 。 以 更 多 计算 为 代价 ,一 次 增加 m 个 而 不 是 一 个 特征 是 可 能 的 。 我 们 还 可 以 在 当前 添 
加 之 后 回溯 并 且 检 查 以 前 添加 的 哪个 特征 可 以 去 掉 ， 这 增 大 了 搜索 空间 但 是 也 增加 了 复杂 
度 。 在 浮动 搜索 (floating search ) 方 法 中 (Pudil、Novovicov 和 Kittler 1994) ， 每 一 步 还 可 以 改 
变 增 加 和 去 掉 的 特征 数量 。 

在 顺序 向 后 选择 (sequential backward selection) 中 ,我 们 从 包括 所 有 特征 的 开始 ， 并 且 执 
行 类 似 的 过 程 ， 但 是 与 添加 相反 ,我们 从 F 中 去 掉 一 个 特征 ， 并 且 是 去 掉 导 致 误差 最 小 的 那个 

= arg min E(F — x,) (6.3) 
而 我 们 
MF PEE x, WHR ECF - x) <E(F) (6. 4) 

如 果 去 掉 特 征 不 能 降低 误差 我 们 就 停止 。 为 了 降低 复杂 度 ， 我 们 可 能 也 会 决定 去 掉 一 个 
特征 ， 如 果 它 的 去 掉 只 引起 很 轻微 的 误差 增加 。 

向 前 搜索 的 所 有 可 能 变 体 对 于 向 后 搜索 也 是 可 行 的 。 向 后 搜索 与 向 前 搜索 具有 相同 的 复 
杂 度 。 但 是 ,训练 具有 较 多 特征 的 系统 比 训练 具有 较 少 特征 的 系统 开销 更 大 ， 并 且 如 果 我 们 
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预料 有 许多 无 用 特征 时 ， 向 前 搜索 更 可 取 。 

子 集 选择 是 监督 的 ， 因 为 输出 被 回归 器 或 分 类 器 用 作 计 算 误差 ,但 是 它 可 以 用 于 任何 回 
归 和 分 类 方法 。 在 多 元 正 态 分 类 的 特殊 情况 下 ， 如 果 原 来 的 d 维 类 密度 是 多 元 正 态 的 ， 则 其 
任意 子 集 也 是 多 元 正 态 的 ， 并且 仍然 可 以 使 用 参数 分 类 ， 并 具有 用 k x he 维 协 方差 矩阵 代替 
d x d 维 协 方差 矩阵 的 优点 。 

在 像 人 脸 识 别 这 样 的 应 用 中 ， 特 征 选择 不 是 降 维 的 好 方法 ， 因 为 个 体 像素 本 身 并 不 携带 
很 多 识别 信息 ; 携带 脸 部 识别 信息 的 是 许多 像素 值 的 组 合 。 这 可 以 通过 我 们 后 边 将 要 讨论 的 
特征 提取 方法 来 做 。 


6.3 主 成 分 分 析 


在 投影 方法 中 ， 我 们 感 兴趣 的 是 找到 一 个 从 原 d 维 输入 空间 到 新 的 (k= d) 维 空间 的 、 
具有 最 小 信息 损失 的 映射 。x 在 方向 w 上 的 投影 为 
z= wx (6.5) 
主 成 分 分 析 (principal components analysis, PCA) 是 一 种 非 监督 方法 ， 因 为 它 不 使 用 输 
出 信息 ; 需要 最 大 化 的 是 方差 。 主 成 分 是 这 样 的 w ， 样 本 投影 到 w 上 之 后 被 广泛 散布 ， 
使 得 样本 点 之 间 的 差别 变 得 最 明显 。 为 了 得 到 唯一 解 并 且 使 该 方向 成 为 最 重要 因素 ， 我 们 要 
SR lw, |] =1。 从 式 (5.14) 我 们 知道 ， 如 果 z =wix, 并 且 Cov(x) = 互 ， 则 
Var(z,) = wi Ew 
我 们 寻找 w| ， 使 得 Varla ) 受 限于 约束 wiw, = 1 最 大 化 。 将 这 写成 拉 格 朗 日 问题 ， 我 们 得 到 
max wiEw, —a(wiw, - 1) (6.6) 
关于 w 求 导 并 令 它 等 于 0， 我 们 有 
2=w, -2aw, = 0， 因此 tw, = aw, 
如 果 w ED ERIE, a 是 对 应 的 特征 值 ， 则 上 式 成 立 。 因 为 我 们 有 
wiZw = aww, = a 
为 了 使 方差 最 大 ， 我 们 选择 具有 最 大 特征 值 的 特征 向 量 。 因 此 ， 主 成 分 是 输入 样本 的 协 方差 
矩阵 的 具有 最 大 特征 值 A = a 的 本 征 向 量 。 
第 二 个 主 成 分 w, 也 应 该 最 大 化 方差 ， 具 有 单位 长 度 ， 并 且 与 w 正 交 。 后 者 的 要 求 是 使 
得 投影 后 z, = wzx 与 z 不 相关 。 对 于 第 二 个 主 成 分 ， 我 们 有 


max ww, -a(wiw, - 1) - B(ww, - 0) (6.7) 
关于 wm 求 导 并 令 它 等 于 0， 我 们 有 
2Zw,， - 2aw, - Bw, = 0 (6.8) 


用 wi 左 乘 ， 我 们 得 到 
2wi kw, - 2awiw, - Bwiw, = 0 
注意 wiw, =0, w Ew, 是 标量 ， 等 于 它 的 转 置 wzZw; ， 这 里 w 是 的 主 特征 向 量 ， 
Xw, =Aiwi;， 因 此 
wiEw, = wiEw = A,wiw, = 0 


于 是 B=0， 并 且 式 (6.8) 可 以 简化 为 
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Ew, = aw, 

这 表明 w, MAE E 的 特征 向 量 ， 具 有 第 二 大 特征 值 和 A; =a。 类 似 地 ， 我 们 可 以 证 明 其 他 维 
被 具有 递减 的 本 征 值 的 本 征 向 量 给 出 。 

因为 王 是 对 称 的 ， 因 此 对 于 两 个 不 同 的 特征 值 ， 特 征 向 量 是 正 交 的 。 如 果 瑟 是 正定 的 
(对 于 所 有 的 非 空 x，xr xz >0)， 则 它 的 所 有 特征 值 都 是 正 的 。 如 果 互 是 奇异 的 ， 则 它 的 
秩 ( 有 效 维 数 ) X k, FEH k<d, A (i=k+1, =, dH OCA, 以 递减 序 排 序 ) o k HAIE 
零 本 征 值 的 特征 向 量 是 约 化 空间 的 维 。 第 一 个 特征 向 量 ( 具 有 最 大 特征 值 的 向 量 )w( 即 为 主 
成 分 ) 贡献 了 方差 的 最 大 部 分 ， 第 二 个 贡献 了 方差 的 第 二 大 部 分 ， 依 此 类 推 。 

我 们 定义 

z = W(x - m) (6.9) 

Hep W H k SE S 的 个 主 特征 向 量 ， 也 是 3 Miio RIJE x 投影 前 减 去 均值 m， 将 数 
据 在 原点 中 心 化 。 该 线性 变换 后 ， 我 们 得 到 维 空间 ， 它 的 维 是 特征 向 量 ， 并 且 在 这 些 新 维 
上 的 方差 等 于 特征 值 ( 见 图 6-1)。 为 了 规范 化 方差 .我 们 可 以 除 以 特征 值 的 平方 根 。 


a a 
x zl Š) 


=S 





= 一 





x, 2) 


图 6-1 主 成 分 分 析 使 样本 中 心 化 ， 然 后 旋转 坐标 轴 与 最 大 方差 方向 一 致 。 如 果 2, 上 的 方差 太 小 ， 
则 可 以 忽略 它 ， 并且 我 们 得 到 从 二 维 到 一 维 的 维度 归 约 


让 我 们 来 看 另 一 种 推导 : 我 们 想 要 找到 一 个 矩阵 W, ERRIA z= W'x( 假 设 不 失 
一 般 性 ，x 已 经 被 中 心 化 ) 时 ， 我 们 将 得 到 Cov(z) =D', 其 中 D' 是 任意 对 角 阵 ; 也 就 是 说 ， 
我 们 希望 得 到 不 相关 的 z;。 
如 果 我 们 建立 一 个 d xd 的 矩阵 C， 其 第 i 列 是 5 的 规范 化 的 特征 向 量 c;, W C'C =T， 并 且 
S = SCC" 
= SCci,c = ,€4)C" 
= (Sc, ,Sc,, ,Sci)C 
= (A,O, Ar," AEC 
= Ace} ++ + Ayeyes 
= CDC" (6. 10) 
其 中 D 是 对 角 和 矩阵 ， 其 对 角 线 元 素 是 特征 值 A ，…，As。 这 称 为 S 的 谱 分 解 (spectral 
decomposition) 。 由 于 C 是 正 交 的 ， 并且 CC" = CC =T， 我 们 可 以 对 上 式 左 乘 以 C7 ， 右 乘 以 
C， 得 到 
C'SC =D (6. 11) 
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我 们 知道 如 果 z= W'x, W Cov(z) = W'SW， 我 们 希望 它 等 于 一 个 对 角 和 矩阵 。 于 是 ， 从 
式 (6. 11) 我 们 看 到 ， 可 以 令 W=C。 

让 我 们 看 一 个 例子 ， 以 便 得 到 一 些 直 观 体 验 ( Rencher 1995 ) : 假设 我 们 有 一 个 班 学 生 的 
五 门 课程 的 成 绩 ， 我 们 希望 对 这 些 学 生 排序 。 也 就 是 说 ， 我 们 希望 把 这 些 数据 投影 到 一 个 维 
上 ， 使 得 这 些 数据 点 之 间 的 差别 最 明显 。 我 们 可 以 用 PCA。 具 有 最 大 特征 值 的 特征 向 量 是 最 
大 方差 的 方向 ， 也 就 是 学 生 最 为 分 散 的 方向 。 这 样 做 比 计算 平均 值 好 ， 因 为 我 们 考虑 了 方差 
的 相关 性 和 区 别 。 


实践 中 ， 即 使 所 有 特征 值 都 大 于 0， 但 是 如 果 | 8 | 很 小 (注意 1$ | = T a), WARMA 


道 ， 某 些 特征 值 对 方差 影响 很 小 ， 并 且 可 以 丢弃 。 因 此 ,我们 考虑 例如 贡献 90% 以 上 方差 的 前 
个 主要 成 分 。 当 A; 降序 排列 时 ， 由 前 个 主要 成 分 贡献 的 方差 比例 (proportion of variance ) 为 
A, tA, + +A, 
ee errs es es 

如 果 维 是 高 度 相 关 的 ， 则 只 有 很 少 一 部 分 特征 向 量具 有 较 大 的 本 征 值 ,k 远 比 gd 小， 并 
且 可 能 得 到 很 大 的 维度 归 约 。 在 许多 图 像 和 语音 处 理 任务 中 ,通常 是 这 种 情况 ， 其 中 (时 间 
或 空间 ) 邻近 的 输入 是 高 度 相 关 的 。 如 果 维 之 间 互 不 相关 , 上 将 与 4 一 样 大 ,通过 PCA 就 没 
有 收益 。 

PHEA (scree graph) 是 把 贡献 的 方差 作为 特征 向 量 编号 的 函数 的 图 形 ( 见 图 6-2) 。 通 过 
目 视 分 析 ， 我 们 也 可 以 确定 有 在 "拐点 "处 ， 增 加 其 他 特征 向 量 不 会 显著 地 增加 贡献 的 
方差 。 
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b) 所 贡献 的 方差 比例 


图 6-2 a) 斜 坡 图 。b) 对 于 取 自 UCI 知识 库 的 Optdigits 数据 集 ， 显 示 所 贡献 的 方差 比例 。Optdigits 是 
手写 数字 数据 集 ， 具 有 10 个 类 和 64 维 输入 。 前 20 个 特征 向 量 贡 献 了 90% 的 方差 
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另 一 个 可 能 的 方法 是 忽略 那些 特征 值 小 于 平均 输入 方差 的 特征 向 量 。 给 定 DA, = Bs; 
(等 于 矩阵 $ 的 迹 ， 记 作 tr(S$) ) 平均 特征 值 等 于 平均 输入 方差 。 当 我 们 仅 保留 特征 值 
大 于 平均 特征 值 的 特征 向 量 时 ,我 们 仅 保留 了 那些 其 方差 大 于 平均 输入 方差 的 特征 
向 量 。 

WR x 维 的 方差 变化 显著 ， 则 它们 对 主 成 分 方向 的 影响 比 相关 性 大 。 因 此 ， 一 个 公 
共 过 程 是 在 使 用 PCA 之 前 对 数据 进行 预 处 理 ， 使 得 每 个 维 都 具有 0 均值 和 单位 方差 。 或 者 ， 
为 了 使 协 方差 而 不 是 个 体 方差 起 作用 ， 我 们 可 以 使 用 协 相 关 和 矩阵 R 而 不 是 协 方差 矩阵 $ 的 
本 征 向 量 。 

PCA 解释 方差 并 对 离 群 点 很 敏感 : 少量 远离 中 心 的 点 对 方差 有 很 大 影响 ， 从 而 也 对 特 
征 向 量 有 很 大 影响 。 和 鲁 棒 的 估计 (Robust estimation) 方法 允许 计算 离 群 点 存在 时 的 参数 。 一 
种 简单 的 方法 是 计算 数据 点 的 马 氏 距离 ， 丢弃 那些 远离 的 孤立 数据 点 。 

如 果 前 两 个 主 成 分 贡献 方差 的 很 大 百分比 ， 则 我 们 可 以 做 目 视 分 析 : 我 们 可 以 在 这 个 二 
维 空间 绘制 数据 ( 见 图 6-3) ， 目 视 地 搜索 结构 、 组 、 离 群 点 、 正 态 性 等 。 相 对 于 原来 的 任何 
两 个 变量 的 图 ， 该 图 对 样本 给 出 了 更 好 的 图 形 描述 。 通 过 观察 主 成 分 的 维 ， 我 们 还 可 以 试 着 
揭示 一 些 有 意义 的 描述 数据 的 潜在 变量 。 例 如 ， 在 图 像 应 用 方面 ,输入 是 图 像 ， 特 征 向 量 可 
以 显示 为 图 像 ， 并 且 可 以 看 作 重要 特征 的 模板 ; 它们 常常 被 形象 地 称 为 “特征 面孔” (eigen- 
face) 、“ 特 征 数字 ” (eigendigit) 等 (Turk 和 Pentland 1991) 。 

















PCA 之 后 的 Optdigits 
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图 6-3 绘制 在 两 个 主 成 分 空间 的 Optdigits 数据 。 只 显示 了 100 个 数据 点 的 标号 ， 
以 便 最 小 化 墨 品 比 (ink-to- noise ratio) 
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当 d 很 大 时 , 计算、 存储 、 处 理 5 都 很 烦 珊 。 我 们 可 以 直接 从 数据 计算 特征 向 量 、 特 征 
值 ， 而 不 必 显 式 地 计算 协 方差 矩阵 ( Chatfield 和 Collins 1980) 。 


从 式 (5. 15 ) 我 们 知道 ， 如 果 地 ~ Wu(u， 瑟 ) ， 则 投影 后 W'x ~ Ne (Win, WEW). 4 
果 样本 是 d 元 正 态 的 ， 则 它 投影 到 上 元 正 态 上 ， 人 允许 我 们 在 很 有 希望 的 、 低 得 多 的 维 空间 进 
行 参 数 判 别 分 析 。 因 为 是 不 相关 的 ， 因 此 新 的 协 方差 矩阵 将 是 对 角 的 。 如 果 它 们 被 规范 
化 ， 具 有 单位 方差 ， 则 可 以 在 这 个 新 空间 使 用 欧 氏 距离 ， 导 出 简单 的 分 类 器 。 
实例 投影 到 z- 空 间 
z = W(x -p) 
当 W 是 正 交 箱 阵 使 得 WW" = 了 时， 它 可 以 逆 投 影 到 原来 的 空间 
x = Wz +p 
是 x 从 它 在 z- 空 间 中 的 表示 的 重 构 。 我 们 知道 ， 在 所 有 正 交 线性 投影 中 ，PCA 最 小 
化 重 构 误差 (reconstruction error) 。 重 构 误差 是 实例 与 它 的 从 低 维 空间 重 构 之 间 的 距离 : 
2 iver (6. 12) 


重 构 误差 取决 于 考虑 了 多 少 个 主 成 分 。 在 视觉 识别 应 用 中 ， 例 如 ， 人 脸 识 别 ， 显 示 x 
使 得 我 们 能 够 可 视 化 地 检查 PCA 期 间 的 信息 损失 。 

PCA 是 非 监 督 的 ， 并 且 不 利用 输出 信息 。 它 是 一 个 一 组 (one- group) 过 程 。 然 而 ， 在 分 
类 情况 下 会 有 很 多 组 ，Karhunen- Loave 扩展 (Karhunen- Losve expansion) 允许 利用 类 信息 ; 例 
如 ， 我 们 不 是 使 用 整个 样本 的 协 方差 矩阵 ， 而 是 估计 类 的 协 方差 矩阵 ， 取 它们 的 平均 (用 先 
验 加 权 ) 作为 协 方差 矩 阵 ， 并 使 用 它 的 特征 向 量 。 

在 公共 主 成 分 (common principal component) 中 (Flury 1988 ) ， 我 们 假设 对 于 每 个 类 ， 主 
成 分 都 是 相同 的 ， 但 是 对 于 不 同 的 类 ， 这 些 成 分 的 方差 不 同 : 

S; = CDC 

这 种 方法 允许 汇聚 数据 ， 并 且 是 一 种 正则 化 方法 ， 它 的 复杂 度 比 所 有 类 的 公共 协 方差 矩 
阵 的 方法 小 ， 同 时 仍 允 许 S: 存在 差别 。 一 种 相关 的 方法 是 柔性 判别 分 析 (flexible discriminan- 
tanalysis) (Hastie, Tibshirani 和 Buja 1994) ， 它 将 数据 线性 投影 到 所 有 特征 都 是 不 相关 的 低 
维 空间 ， 再 用 最 小 距离 分 类 。 


6.4 因子 分 析 


在 PCA 中 ， 从 原来 的 维 x% Ci=1，…，d) ， 我 们 形成 一 个 新 的 变量 集 z， 它 是 x, 的 线性 
组 合 : 
z= W(x —p) 
在 因子 分 析 (factor analysis, FA) 中 ， 我 们 假定 有 一 个 不 可 观测 的 潜在 因子 (latent factor) 
z(j =1,，…, 上) 的 集合 ， 它 在 组 合 时 生成 x。 因 此 ， 与 PCA 的 方向 相反 ( 见 图 6-4) ， 其 目标 
是 通过 较 少数 量 的 因子 刻画 观测 变量 之 间 的 依赖 性 。 
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图 6-4 ， 主 成 分 分 析 方法 产生 新 的 变量 ， 它 们 是 原 输入 变 量 的 线性 组 合 。 然 而 ， 在 因子 分 析 ， 
我 们 假定 存在 一 些 因子 ， 它 们 线性 组 合 时 产生 输入 变量 


假设 有 一 个 变量 组 ， 它 们 之 间 具 有 高 度 相关 性 ， 而 与 其 他 所 有 变量 具有 很 低 的 相关 性 。 
那么 可 能 存在 一 个 简单 的 潜在 因子 给 出 这 些 变量 的 起 源 。 如 果 其 他 变量 能 够 类 似 地 分 成 子 
集 ， 则 少数 因子 就 能 够 代表 这 些 变 量 组 。 虽 然 因子 分 析 总 是 把 变量 划分 成 因子 艇 ,但 是 因子 
是 否 意味 着 什么 ， 或 是 否 真 的 存在 ， 仍 然 是 一 个 悬而未决 的 问题 。 

像 PCA 一 样 ，FA 也 是 一 个 一 组 过 程 ， 并 且 是 非 监 督 的 。 目 标 是 在 一 个 更 小 的 维 空间 中 
对 数据 建 模 而 不 丢失 信息 。 在 FA 中 ,这 用 变量 之 间 的 相关 性 度量 。 

正如 在 PCA 中 一 样 ， 我 们 有 样本 X = |x'|,， 取 自 某 个 未 知 的 概率 密度 ， 其 中 Elx] =p, 
Cov(x) = 王 。 我 们 假定 因子 是 单位 正 态 的 五 [二 ] =0，Var(z;) =1, 并且 是 不 相关 的 Cov(z;， 
z) =0, i ž jo 为 了 说 明 什 么 是 不 能 由 因子 解释 的 ， 每 个 输入 存在 一 个 附加 的 源 ， 记 作 si。 
假定 它 具 有 0 均值 EL e;] =0， 和 某 个 未 知 的 方差 Var(si;) = 五 。 这 些 特殊 的 源 之 间 是 不 相关 
的 Cov(e;, £) =0, i #7, 并且 与 因子 也 是 不 相关 的 Cov(ei，z) =0, Vi, jo 

FA 假定 每 个 输入 维 x, (i=1, =, d YAE k <d PAF zl, =, 有) 的 加 权 和 ， 
加 上 残 差 项 ( 见 图 6-5 ) : 


Xi 一 Mi = 221 + Vaz +° + VRZ, + Eis Vi=l,---,d 


k 
X; — Wi = È vz +E; (6. 13) 
全 








x 


图 6-5 因子 是 独立 的 、 单 位 正 态 的 ， 它 们 被 延伸 、 旋 转 和 变换 ， 以 成 为 输入 
这 可 以 写成 向 量 和 矩阵 形式 
x-p=Vite (6. 14) 
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HEP V iè d xk WEHE, BRE AFRI (factor loading) 。 从 现在 开始 ， 不 失 一 般 性 ,我们 
将 假设 六 =0; 我 们 总 能 在 投影 后 加 上 jy。 给 定 Var(z) =1 Fil Var(e,) =Y, 
Var(x,) =v, to, to +0, + ¥, (6. 15) 
台 _1 刀 是 公共 因子 贡献 的 部 分 ， 而 P, 是 针对 x, 的 方差 。 
用 向 量 矩 阵 形式 ， 我 们 有 
£ = Cov(x) = Cov( Vz + £) (6. 16) 
= Cov( Vz) + Cov(e) 
= VCov(z)V + W 
= VV" + 本 (6.17) 
Hp y EXE, P 在 对 角 线 上 。 由 于 因子 是 不 相关 的 、 单 位 正 态 的 ， 因 此 我 们 有 
Cov(z) =T。 例 如 ， 对 于 两 个 因子 
Cov(%, ,%) = viv + Vaa 
WR x, Ax, 的 协 方差 高 ， 则 它们 通过 一 个 因子 相关 。 如 果 它 是 第 一 个 因子 ， 则 w 和 
oy ABs 如 果 它 是 第 二 个 因子 ， 则 wz 和 2 都 高 。 在 这 两 种 情况 下 ， 和 wz + wazzz 都 将 会 
高 。 如 果 该 协 方差 低 ， 则 x, 和 > 依赖 于 不 同 的 因子 ， 并 且 在 和 式 的 乘积 中 ， 一 项 高 而 另 一 
项 低 ， 而 它们 的 和 低 。 
我 们 看 到 
Cov(x,,z) = Cov( v2. ,ms) = 仙人 的 = Wms 
因此 ，Cov(z，z) =Y， 并 且 我 们 看 到 载荷 用 因子 表示 变量 之 间 的 相关 人 性。 
给 定 DIT S, FRA RAR VA, WE 
S=W's 
如 果 只 有 少量 因子 ， 即 如 果 Y RA BULA, WAX Ved xk iW Ad MA, BRT 
能 有 一 个 关于 S 的 简化 结构 ， 这 样 参数 的 数量 从 a? 减少 到 d +k +d, 
因为 亚 是 对 角 的 ， 因 此 协 方差 由 了 表示。 注意 ，PCA 不 允许 单独 的 亚 并 且 试 图 考虑 协 
方差 和 方差 。 当 所 有 的 于 相等 时 ， 即 当 更 = 玛 时 ， 我 们 得 到 概率 PCA(probabilistic PCA) 
(Tipping 和 Bishop，1997)， 而 当 于 为 0 时， 得 到 传统 的 PCA, 
现在 ， 让 我 们 来 看 怎样 找到 因子 载荷 和 特定 的 方差 : RTA. Ri, MEN 
谱 分 解 ， 我 们 知道 有 
S = CDC = CD DC = (CD )(CD'’™”)" 
其 中 ， 通 过 观察 贡献 的 方差 比例 ， 我 们 只 取 k 个 本 征 向 量 ,使 得 C 是 d xx 的 本 征 向 量 和 矩阵 ， 
m D'O JE kxk 对 角 和 矩阵 ， 其 对 角 线 上 的 值 是 本 征 值 的 平方 根 。 这 样 ， 我 们 有 
V = CD” (6.18) 
从 式 (6. 15 ) 我 们 可 以 得 到 P, 


~ 


k 
p= Dr (6. 19) 


jal 


注意 当 Y 与 任 一 正 交 和 矩阵 ( 即 具有 TT" = 1 EARE) 相 乘 ， 它 就 是 另 一 个 有 效 解 ， 因 
此 解 不 是 唯一 的 。 


= 
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S = (VT)( VT)" = VIT'V' = VIV" = VV" 
如 果 卫 是正 交 矩阵 ， 则 到 原点 的 距离 不 变 。 如 果 z=Tr， 则 
zz = (Tx)"(Tx) =x'T'Tx = x'x 
FE VA — Tot fA A L A DE Pe Ae fs A CR, FAP RR ATT De PE LT SE FE A hs R 
(Rencher，1995 ) 。 在 两 维 中 ， 
T = es - sind 
sind cos 
将 坐标 旋转 小 度 。 有 两 种 类 型 的 旋转 : 在 正 交 旋转 中 ， 旋 转 后 因子 仍然 正 交 ; 在 斜 旋转 中 ， 
人 允许 因子 变 成 相关 的 。 旋 转 因子 为 每 个 变量 在 尽 可 能 少 的 因子 上 给 出 最 大 载荷 ， 使 得 因子 可 
解释 。 然 而 ， 可 解释 性 是 主观 的 ， 不 应 该 被 用 来 强加 个 人 对 数据 的 偏见 。 
因子 分 析 有 两 种 用 法 : 当 我 们 找到 载荷 并 且 试图 使 用 较 少 因子 表示 变量 时 ， 它 可 以 用 来 
提取 知识 。 当 《<=d 时 ， 它 也 可 以 被 用 来 降低 维度 。 我 们 已 经 看 到 了 第 一 个 是 怎么 做 的 。 现 
在 ， 让 我 们 看 一 下 因子 分 析 怎 样 被 用 来 降低 维度 。 
当 我 们 对 维度 归 约 感 兴趣 时 ， 我 们 需要 能 够 从 x; 发 现 因子 得 分 5。 我 们 希望 找到 载荷 
Wii» 使 得 








aS > wy, + £j, 7 = 1,.,k (6. 20) 
其 中 %; 被 中 心 化 ， 具 有 均值 0。 在 向 量 形式 ， 对 于 观测 :， 这 可 以 写作 
z = W'x' +e, Vt =1,--,N 
这 是 一 个 线性 模型 ， 有 d LAC k Aio SE BT A PE 


(z) = (x')"W +E", Vi=l,--,N 
给 定 我 们 有 一 个 Y 个 观测 的 样本 ， 我 们 记 
Z=XW+e (6.21) 


其 中 Z 是 NN xk 个 因子 , 下 是 Wxd 个 (中 心 化 的 ) 观 测 ， 而 是 wx 个 0 均值 噪声 。 这 是 一 
个 多 输出 的 多 元 线性 回归 ， 并 且 我 们 从 5. 8 节 知 道 ， 可 以 求解 W 14a 

W = (XX) "XZ 
但 是 我 们 不 知道 Z; 这 是 我 们 要 计算 的 。 我 们 在 两 边 同时 乘 以 和 除 以 N -1， 得 到 





PE. 9 
W = (N-1)(X'X) wot 
_ 人 |- XZ 
N-1) N-1 
= SV (6. 22) 
并 且 把 式 (6. 22) 代 入 式 (6. 21) 中 ， 我 们 记 作 
Z = XW = xS'V (6. 23) 


假定 S ARATE. 4a, 被 规范 化 具有 单位 方差 时 ， 我 们 可 以 用 R 代替 S. 

对 于 维度 归 约 ， 除了 因子 的 可 解释 性 ， 允 许 识 别 公 共 原 因 、 简 单 解释 、 知 识 提 取 外 ， 
FA 与 PCA 相 比 并 无 优势 。 例 如 ， 在 语音 识别 ，x 对 应 声音 信号 ， 但 是 我 们 知道 这 是 少数 的 
RRA, MA, A. RU. RM ee ERPE) 相互 作用 的 结果 ， 它 们 被 适当 的 定位 用 
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来 形成 从 肺 部 出 来 的 气流 ， 进 而 产生 语音 。 如 果 语 音信 和 号 可 以 转换 到 这 个 发 音 分 析 的 空间 ， 
则 语音 识别 就 会 非常 容易 。 使 用 这 种 生成 模型 是 当前 语音 识别 的 研究 方向 之 一 ， 第 16 章 我 
们 将 讨论 如 何 用 图 形 模型 来 表示 这 种 模型 。 


6.5 多 维 定 标 


假设 我 们 有 N 个 点 ， 并 且 给 定 每 对 点 之 间 的 距离 dy;，i, j=1,，…，N。 我 们 不 知道 这 些 
点 的 确切 坐标 ， 也 不 知道 它们 的 维度 ， 以 及 距离 是 怎样 计算 的 。 多 维 定 标 ( multidimensional 
scaling, MDS) 是 把 这 些 点 映射 到 低 维 (如 两 维 ) 空间 的 方法 ,使 得 它们 在 两 维 空间 中 的 欧 氏 
距离 尽 可 能 接近 在 原 空间 中 给 定 的 距离 d;。 这 样 ， 它 需要 一 个 从 某 个 未 知 维度 空间 到 低 维 
空间 ,例如 两 维 空间 上 的 投影 。 

在 典型 的 多 维 定 标 例子 中 ,我 们 取 城 市 之 间 的 道路 旅行 距离 ， 在 应 用 MDS 后 ， 我 们 得 
到 一 张 近 似 地 图 。 这 个 地 图 被 扭曲 ， 在 存在 诸如 高 山 和 湖泊 等 地 理 障 得 物 的 部 分 ， 道 路 旅行 
距离 大 大 的 偏离 了 直接 的 飞行 距离 ( 欧 氏 距离 )， 这 个 地 图 被 拉 伸 ， 以 便 适 应 更 长 的 距离 ( 见 
图 6-6)。 该 地 图 以 原点 为 中 心 ， 但 是 解 仍然 不 是 唯一 的 。 我 们 可 以 得 到 任意 的 旋转 和 镜像 
版 本 。 








:赫尔辛基 
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1000 上 

“都 伯 林 
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.罗马 
-1500 上 
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图 6-6 MDS 绘制 的 欧洲 图 。 城 市 包括 雅典 、 柏 林 、 都 柏林 、 替 尔 辛 基 、 伊 斯 坦 布尔 、 里 斯 本 、 伦 敦 、 
马德里 、 莫 斯 科 、 巴 黎 、 罗 马 和 苏黎世 。 这 些 城市 之 间 逐 对 道路 旅行 距离 作为 输入 给 出 ， 并 且 
MDS 把 它们 放 到 两 维 的 空间 中 ， 使 得 这 些 距离 尽 可 能 地 被 保持 
可 以 使 用 MDS 进行 维度 归 约 : 通过 计算 d AE x 空间 的 逐 对 欧 氏 距离 并 把 它 作为 MDS 的 
输入 。 然 后 ，MDS 把 它 投影 到 较 低 维 的 空间 ， 以 保持 这 些 距 离 。 
假设 我 们 有 通常 的 样本 X= |x), HP r eR*。 对 于 两 个 点 r 和 s， 它 们 之 间 的 平方 
欧 氏 距离 为 
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Ë = |x -x ||? = G — x:)? = S (33) -25 as + -a 
zb +b, =, 7 7 ° (6.24) 
JEH b EXA 
hka Ta (6.25) 
为 了 约束 这 个 解 ， 我 们 把 数据 在 原点 中 心 化 并 假定 
ee ee Wakat 
然后 ,在 r,s Bir, s 二 者 上 把 式 (6.24) 加 起 来 ， 并 且 定义 
r=- Th- A 


我 们 得 到 
> a, = T+ Nb, 
Zd, = Nb, +T 
> Md, =2NT 
当 我 们 定义 


2 1 2 2 1 2 2 1 2 
d = WÈ da» d. = ylidn = ad Da, 
并 使 用 式 (6. 24) 时， 我 们 得 到 


ba = (d+, di, ~ dh) (6. 26) 

现在 , 已 经 计算 了 4b 并 已 知 B=XX"( 如 式 6.25 中 的 定义 )， 我 们 寻找 一 个 近似 。 从 谱 
分 解 我 们 知道 下 =CD“ 可 以 被 用 作 天 的 一 个 近似 ， 其 中 C 是 和 矩阵， 其 列 是 B 的 特征 向 量 ， 
而 刀 “是 对 角 和 矩阵 ， 其 对 角 线 是 本 征 值 的 平方 根 。 观 察 B 的 本 征 值 ， 像 我 们 在 PCA 和 FA 中 
所 做 的 那样 ， 我 们 确定 比 d( Al N) 低 的 维度 ko RANEI c 是 本 征 向 量 ， 其 对 应 的 本 征 值 为 
Ajo 注意 cj 是 w 维 的 。 于 是 ， 我 们 得 到 新 的 维 

z= Jac, j a lek, t=1,…,N (6.27) 

也 就 是 说 ， 在 标准 化 后 ， 实 例 i 的 新 坐标 由 本 征 向 量 cj(j =1，…, 上) 的 第 i 个 元 素 给 出 。 

已 经 证 明 ( Chatfield 和 Collins 1980) XX"(N xN) 与 XX(d xd) 的 本 征 值 相同 ， 并 且 本 征 
向 量 通 过 一 个 简单 的 线性 变换 相关 。 这 说 明 PCA 做 了 与 MDS 相同 的 工作 ， 并 且 代 价 更 低 。 
在 相关 和 矩阵 而 不 是 在 协 方差 矩阵 上 做 PCA 等 价 于 用 标准 化 的 欧 氏 距离 做 MDS， 其 中 每 个 变 
量 有 单位 方差 。 

在 一 般 情况 下 ， 我 们 希望 寻找 一 个 映射 z=g(x 10), 其 中 ze R*, xe R’, 并 且 g(x] 0) 
是 根据 参数 9 的 集合 定义 的 从 d 维 到 左 维 的 映射 函数 。 前 面 我 们 讨论 的 经 典 的 MDS 对 应 线 
性 变换 


ww ai bbt.com DO00000 


维度 归 约 77 





z= g(x|W) = Wx (6. 28) 
但 是 在 一 般 情 况 下 ， 也 可 以 使 用 非 线 性 的 映射 ; 这 称 作 Sammon 映射 (Sammon mapping). E 
映射 中 的 标准 化 误差 称 作 Sammon Æ 77 (Sammon stress), XX 
(iz -zl - x -x I)’ 
> 


We Pe 








- 5 ele | -lx -x |) (6.29) 
lx -x 

可 以 对 g(* 19) 使 用 任何 回归 方法 ,估计 9 来 最 小 化 训练 数据 X 上 的 应 力 。 如 果 gO) E 
x 上 是 非 线 性 的 ， 这 将 对 应 一 个 非 线 性 的 维度 归 约 。 

在 分 类 的 情况 下 ， 我 们 可 以 在 距离 中 包含 类 信息 ( 见 Webb，1999)， 如 

d! = (1 - a)d, + ac。 

其 中 ce. 是 xz 和 x’ 所 属 类 之 间 的 “距离 ”"。 这 个 类 间距 离 应 该 被 主观 地 提供 ， 而 a 用 交叉 确认 
优化 。 


6.6 线性 判别 分 析 


线性 判别 分 析 ( linear discriminant analysis, LDA) 是 一 种 用 于 分 类 问题 的 维度 归 约 的 监督 
方法 。 我 们 由 两 个 类 来 开始 这 个 问题 的 讨论 ， 然 后 推广 到 二 2 个 类 。 
给 定 来 自 两 个 类 C, AC, 的 样本 ,我 们 希望 找到 由 向 量 w 定义 的 方向 ,使 得 当 数 据 投影 
到 w 上 时 ,来 自 两 个 类 的 样本 尽 可 能 地 分 开 。 正 如 我 们 在 前 面 看 到 的 
z=w'x (6. 30) 
是 x 到 w 上 的 投影 ， 因 而 也 是 一 个 从 d 维 到 1 维 的 维度 归 约 。 
m, 和 mi 分 别 是 C, 类 样本 在 投影 前 和 投影 后 的 均值 。 注 意 m, eR 而 m, eR, RMA 
样本 X= |x, r), UR x eC 则 r=1， 而 如 果 x eC, 则 r=0。 





Bw x'r 
mi = =w'm, 
yr 

Ewx(l-r) i 

m = 1-r) =w m, (6.31) 
KA C, 和 C, 的 样本 投影 后 的 散布 (scatter) 是 

= > (w'x' —m,)?r' 

s = (Cox -m,)?(1 -r') (6. 32) 


投影 后 ， 为 了 使 两 个 类 被 很 好 地 分 开 ， 我 们 希望 均值 尽 可 能 远离 ， 并 且 类 实例 散布 在 尽 

可 能 小 的 区 域 中 。 因 此 ， 我 们 希望 |m -m |K, 而 st +s 小 ( 见 图 6-7)。 费 希 尔 线性 判别 
式 (Fishers linear discriminant) 是 最 小 化 式 (6. 33) 的 wo 
Cm - m,)” 


Jw) = 一 2 (6. 33) 


s 十 52 


wwaibbt.com DOD00000 





78 第 6 章 














图 6-7 两 维 、 两 类 的 数据 在 w 上 的 投影 


重 写 分 子 ， 我 们 得 到 
(ml -mm) = (w'm, - w'm,)’ 
= w'(m, —m,)(m, - m,)"w 
= w'S,w (6. 34) 
HHS, = (ma —m,)(m, —m,)" 是 类 间 散 布 矩 阵 (between- class scatter matrix) 。 这 个 分 子 是 
投影 后 类 实例 在 其 均值 周围 散布 的 和 ， 并 且 可 以 改写 为 


sx = > (w'x' 一 mr 
t 
= $ w"(x' - m,) (x' - m,)"wr' 
t 


= w'S\w (6. 35) 
其 中 

S, = È r(x -m,)(x'-m,)" (6. 36) 
是 C, 的 类 内 散布 矩阵 (within- class scatter matrix), S,/Z,r' 是 D 的 估计 。 类 似 地 ，s? = 
w'S,w, FEP S, = 互 (1 -r')(x' -m,)(x' -ma) ， 并 且 我 们 得 到 
si +s, =w Syw 
其 中 ，Sw =S, +S, 是 类 内 散布 的 总 和 。 注 意 ，s +s) 除 以 样本 总 数 是 汇聚 数据 的 方差 。 式 
(6.33) 可 以 改写 为 
W Saw _ | w"(m, - m,)’ | 
w'S,w w'S,w 
关于 w 取 J 的 导数 并 令 其 等 于 0， 我们 得 到 


T 
w (m, -m,) 


J(w) = 





(6. 37) 


w'(m, -m,) 
SO acu, mm) i 


给 定 w'(m, -m,)/w'S,w 为 常数 ， 我 们 有 


w'Sw 


NS 
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w = cS,'(m, -m,) (6. 38) 
其 中 <。 是 某 个 常数 。 因 为 对 我 们 来 说 重要 的 是 方向 ， 而 不 是 大 小 ， 所 以 我 们 可 以 取 e = 1 并 
找 出 w。 
记 住 当 p(x | C) ~N (u, 王 ) 时 ， 我 们 有 线性 判别 式 ， 其 中 w= (u, -Aa) ， 并 且 我 
们 看 到 如 果 类 是 正 态 分布 的 ， 则 费 希 尔 线 性 判别 式 是 最 优 的。 在 同样 的 假设 下 ,我 们 还 可 以 
HANE w。 ， 来 分 开 两 个 类 。 但 是 ， 费 希 尔 线性 判别 式 其 至 在 类 不 是 正 态 分 布 时 也 能 使 用 。 
我 们 已 经 把 样本 从 d 维 投 影 到 1 维 ， 之 后 可 以 使 用 任何 分 类 方法 。 
fEK>2 个 类 的 情况 下 ， 我 们 希望 找到 这 样 的 矩阵 W, tig 


z= W'x (6.39) 
Hp ck EN, WE dxk ERE, C, 的 类 内 散布 矩阵 是 
S; = $ ri(x' - m,) (x - m,)" (6. 40) 


其 中 ， 如 果 关 EC 则 产 =1， 和 否则 为 0。 总 类 内 散布 是 
Sy = vs, (6.41) 
当 存在 天 >2 个 类 时 ， 均值 的 散布 根据 它们 在 总 均值 周围 的 散布 情况 计算 
m, (6. 42) 
而 类 间 散 布 矩 阵 是 


Sp = X N:(m, —m)(m, - m)" (6. 43) 


HPN, = 有 rt。 投 影 后 的 类 间 散 布 矩 阵 是 W SsW， 而 投影 后 的 类 内 散布 矩阵 是 WSW € 
们 都 是 xk 矩阵。 我 们 希望 第 一 个 散布 大 ; 也 就 是 说 ， 在 投影 之 后 ， 在 新 的 大 维 空间 ， 我 
们 希望 类 均值 互相 之 间 尽 可 能 远离 。 我 们 希望 第 二 个 散布 小 ; 也 就 是 说 ， 在 投影 之 后 ， 我 们 
希望 来 自 同一 个 类 的 样本 尽 可 能 接近 它们 的 均值 。 对 于 一 个 散布 (或 协 方差 ) 和 矩阵 ， 散 布 的 
一 个 度量 是 行列 式 。 记 住 该 行列 式 是 特征 值 的 乘积 ， 而 特征 值 给 出 沿 着 它 的 特征 向 量 ( 成 
分 ) 的 方差 。 因 此 ， 我 们 对 最 小 化 式 (6. 44) WEE W 感 兴趣 
| W'S, W | 
| W'S, W | 
Sz'Ss 的 最 大 的 特征 向 量 是 解 。Ss 是 K 个 秩 为 1 的 矩阵 (mm - mm) (m,-m)" A, IF AE 
们 之 中 只 有 -1 个 是 独立 的 。 因 此 ，Ss 具有 最 大 秩 下 -1， 并 且 我 们 取 上 = 天 -1。 这 样 ， 
我 们 定义 一 个 新 的 、 较 低 的 天 -1 维 空间 ， 然 后 在 那里 构造 判别 式 ( 见 图 6-8 ) 。 虽 然 LDA 
使 用 类 分 离 性 作为 它 的 好 坏 标准 ， 但 是 在 这 个 新 空间 里 可 以 使 用 任意 的 分 类 方法 来 估计 
判别 式 。 

我 们 看 到 ， 为 了 使 用 LDA，S, MAEA. WRES, WRT PASE] PCA 消除 
奇异 性 ， 然 后 把 LDA 应 用 于 其 结果 。 然 而 ， 我 们 应 该 确保 PCA 不 会 把 维度 降低 太 多 ， 从 而 
使 得 LDA 没有 多 少 事 可 做 。 


J(W) = (6. 44) 
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LDA 后 的 Optdigits 
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图 6-8 绘制 在 LDA 找到 的 前 两 个 维 空间 上 的 Optdigits。 与 图 6-3 比较 ， 正 如 期 望 的 那样 ， 我 们 看 到 LDA 比 
PCA 导致 更 好 的 类 分 离 。 即 便 在 这 个 二 维 空间 (有 9 个 ) ， 我 们 也 能 看 到 不 同类 的 分 开 的 云 团 


6.7 等 距 特征 映射 


当 数 据 落 在 一 个 线性 子 空间 中 时 ，6. 3 节 讨论 的 主 成 分 分 析 (PCA ) 效果 很 好 。 然 而 ， 在 
许多 应 用 中 ， 这 一 前 提 并 不 成 立 。 以 人 脸 识别 为 例 ， 人 脸 用 如 100 x 100 的 二 维 图 像 表示 ， 
在 这 种 情况 下 ， 每 张 人 脸 是 10 000 维 空间 中 的 一 个 点 。 现 在 ， 假 设 随 着 一 个 人 由 右 向 左 慢 
慢 转动 头 部 ， 我 们 取 一 系列 照片 。 我 们 得 到 的 这 个 面部 图 像 序 列 沿 着 10 000 维 空间 中 的 一 
条 轨迹 ， 而 这 条 曲线 不 是 线性 的 。 现 在 ， 考 虑 许多 人 的 人 脸 ， 随 着 他 们 转动 头 部 ， 所 有 人 的 
人 脸 轨 迹 定义 了 10 000 维 空间 中 的 一 个 流 形 ， 并 且 这 就 是 我 们 想 要 建 模 的 。 两 张 人 脸 的 相 
似 性 不 能 简单 地 表示 成 像素 差 的 和 ， 因 而 欧 氏 距离 不 是 一 个 好 的 度量 。 很 可 能 出 现 这 种 情 
况 : 两 个 具有 相同 姿势 的 不 同人 的 图 像 的 欧 氏 距离 比 同一 个 人 的 两 种 不 同 姿势 图 像 的 欧 氏 距 
离 更 小 ， 这 不 是 我 们 想 要 的 。 我 们 应 该 计算 的 是 沿 流 形 的 距离 ， 这 称 作 测 地 距离 ( geodesic 
distance ) 。 等 距 特 征 映射 (Isometric feature mapping, Isomap) (Tenenhaum, de Silva 和 Langford 
2000 ) 佑 计 这 种 距离 ， 并 使 用 多 维 定 标 (multidimensional scaling, MDS) (IL 6.5 节 )， 用 它 进 
行 维度 归 约 。 

Isomap 使 用 所 有 数据 点 对 之 间 的 测 地 距离 。 对 于 输入 空间 中 靠近 的 邻近 点 ， 可 以 使 用 
欧 氏 距离 ;对 于 姿势 中 的 小 改变 ， 流 形 是 局 部 线性 的 。 对 于 远离 的 点 ， 测 地 距离 用 沿 流 形 的 
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点 之 间 的 距离 和 来 近似 。 可 以 这 样 做 : 定义 一 张 图 ， 其 结 点 对 应 于 N 个 数据 点 ， 其 边 连接 
邻近 的 点 (距离 小 于 某 个 e 的 点 ,或 n 个 最 近邻 之 一 )， 边 的 权重 对 应 于 欧 氏 距离 。 任 意 两 
点 之 间 的 测 地 距离 用 对 应 的 两 点 之 间 最 短路 径 长 度 计算 。 对 于 两 个 不 邻近 的 点 ， 我 们 需要 沿 
通路 跳 过 许多 中 间 点 ， 因 而 该 距离 是 沿 流 形 es 
的 距离 ， 用 局 部 欧 氏 距离 的 和 来 近似 (参见 Fa 
图 6-9) 。 
QO 58 |x" -站 <s( 同 时 要 确保 图 是 连通 
的 ) 或 者 x' 是 x' 的 n 个 最 近邻 之 一 (同时 要 KREN 
确保 距离 矩阵 是 对 称 的 ) ， 并 且 设置 其 边 长 r: 
Alix’ -x l, WAAS r Als 是 连接 的 。 对 ee 





s AMEN 


两 个 结 点 + 和 s，d,, 是 它们 之 间 最 短路 径 图 6-9 与 欧 氏 距离 不 同 ， 测 地 距离 沿 流 形 计算 ， 而 
的 长 度 。 然 后 ,在 d, 上 应 用 MDS， 通 过 观察 欧 氏 距离 不 使 用 这 种 信息 。 多 维 定 标 之 后 ， 
具有 如 下 效果 :把 测 地 空间 中 相隔 较 远 的 r 相隔 较 远 的 位 置 ， 尽 管 它们 在 原 空间 很 靠近 


FI s 也 放 在 新 的 k 维 空间 相隔 较 远 的 位 置 上 ， 即 使 在 原 4 维 空间 中 它们 在 欧 氏 距离 意义 下 靠 
近 也 如 此 。 

很 显然 ， 随 着 点 数 增加 ， 图 形 距 离 提供 了 更 好 的 近似 ， 尽 管 以 更 多 的 运行 时 间 为 代价 。 
如 果 时 间 是 至 关 重要 的 ， 则 可 以 二 次 抽样 并 使 用 “地 标点 ” 子 集 使 得 算法 更 快 。 参 数 s 需要 
细心 调整 ， 如 果 它 太 小 ， 则 可 能 存在 多 个 连通 分 支 ; 而 如 果 它 太 大 ， 则 可 能 添加 破坏 低 维 垦 
入 的 “ 捷 近 ” 边 ( Balasubramanian 等 2002 ) 。 

正如 使 用 MDS 一 样 ， 使 用 Isomap 的 一 个 问题 是 : 它 把 NN 个 点 放 到 一 个 低 维 空间 ,但 是 
它 并 不 学 习 一 个 可 以 映射 新 检验 点 的 一 般 映射 函数 ; 新 点 应 该 添加 到 数据 集中 ， 并 且 和 需要 使 
用 N+1 个 实例 再 次 运行 整个 算法 。 


6.8 局 部 线性 嵌入 


Ay Fh HME HK A (locally linear embedding, LLE) 由 局 部 线性 拟 合 发 现 全 局 非 线 性 结构 
(Roweis 和 Saul 2000)。 其 基本 思想 是 ， 流 形 的 每 个 局 部 小 段 都 可 以 线性 地 近似 ， 并 且 给 定 
足够 多 的 数据 ， 每 个 点 都 可 以 表示 成 其 近邻 (或 者 用 给 定 的 近邻 数 n， 或 者 用 距离 阔 值 = E 
义 ) 的 线性 加 权 和 。 给 定 原 空 间 中 的 x 和 它 的 近邻 x,，， 我 们 可 以 使 用 最 小 二 乘 找到 重 构 权 
E W, 以 最 小 化 误差 函数 

oe (6. 45) 


约束 条 件 是 : 对 于 任意 r，W,, =0, IFAW, =1. 

i USI Ree Tn aon 
流 形 ( 即 实例 映射 到 的 新 空间 ) 的 局 部 小 段 也 有 效 ( 见 图 6. 10) 。 因 此 ，LLE 的 第 二 步 是 保持 
权重 W,, 固 定 ， 并 令 新 坐标 z 取 满 足 由 权重 给 定 的 内 插 点 约束 所 需 的 值 : 

天 (ZIW) = > lz- > wzi (6. 46) 
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在 原 d 维 空间 位 于 附近 的 点 在 新 的 维 空间 应 该 保持 邻近 ， 并 且 类 似 地 在 新 的 维 空间 
中 协同 定位 。 式 (6. 46) 可 以 改写 为 


E(Z|W) = >》M(Z) "z (6.47) 
其 中 
M, = 6, — W, - W. + > WW (6. 48) 


M Fie NY (RAER R ARDY EA: n<N) 、 对 称 的 和 半 正 定 的 。 与 其 他 
维 归 约 方 法 一 样 ， 我 们 要 求 数据 在 原点 中 心 化 ， 即 EL[z] =0， 并 且 新 坐标 是 不 相关 的 且 具 有 
单位 长 度 : Cov(z) =I 在 这 两 个 约束 下 ， 式 (6.47) 的 解 由 具有 最 小 特征 值 的 上 +1 个 特征 
向 量 给 出 。 我 们 忽略 特征 值 中 最 小 的 一 个 ， 其 余天 个 特征 向 量 即 为 新 坐标 。 








x 空间 z 空 间 


图 6-10 局 部 线性 嵌 人 首先 在 原 空 间 学 习 约 束 ， 再 关于 根据 约束 把 点 放置 在 新 空间 。 约 束 使 用 
直接 近邻 (用 实 线 显示 ) 学 习 ， 但 是 也 传播 到 二 级 近邻 (用 虚线 显示 ) 


因为 n 个 近邻 生成 一 个 n-1 维 空间 (在 二 维 空间 中 ， 需 要 到 三 个 点 的 距离 来 唯一 确定 
你 的 位 置 ) ， 因 此 LLE 可 以 把 维度 归 约 到 k<n -1。 据 观察 (Saul 和 Roweis 2003), k +j n 
之 间 的 某 个 范围 足以 得 到 一 个 好 的 舱 入 。 注 意 ， 如 有 果 n( 或 sz) 很 小 ， 则 通过 把 每 个 实例 与 
它 的 近邻 连接 构造 的 图 可 能 不 再 连通 ， 并 且 可 能 需要 在 各 连通 分 支 上 分 别 运行 LLE， 以 找 
出 输入 空间 不 同 部 分 的 流 形 。 另 一 方面 ， 如 果 n( 或 =) 取 值 太 大 ,那么 某 些 近邻 可 能 太 
远 ， 以 使 局 部 线性 假设 不 成 立 ， 可 能 损害 嵌入 。 有 可 能 基于 某 种 先 验 知识 ， 在 输入 空间 
的 不 同 部 分 使 用 不 同 的 ”( 或 =) ， 但 是 如 何 做 仍然 是 一 个 尚 需 研 究 的 问题 (Saul 和 Roweis 
2003 ) 。 

与 Isomap 一 样 ，LLE 解 是 N 个 点 的 新 坐标 系 ， 但 我 们 不 学 习 映 射 ， 因 而 不 能 针对 新 的 
zx' 找 到 z。 对 此 有 两 种 解决 方案 : 

1 ) 使 用 相同 的 思想 ， 可 以 在 原 d 维 空间 中 找 出 x 的 n 个 近邻 ,并 且 首 先 学 习 最 小 化 


Ex(w |x) = |æ- £ wal (6. 49) 
的 重 构 权重 w ， 然 后 使 用 它们 在 新 的 大 维 空间 中 重 构 z: 
z= wz (6. 50) 
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注意 : 这 种 方法 也 可 以 用 于 由 Isomap (a MDS) 解 插值 。 然 而 ， 其 缺点 是 需要 存放 整个 
数据 集 Jx} 。 

2) 使 用 X = [xz ,作为 训练 集 ， 可 以 训练 任意 回归 器 g(x'|19)( 例 如， 一 个 多 层 感 

知 器 (第 11 章 ))， 作 为 由 x' 近似 z 的 泛 化 器 ， 其 参数 9 通过 学 习 得 到 ， 以 最 小 化 回归 

E(@|X) = 之 lz -g(x |0) IP (6.51) 


一 旦 训练 完成 ， 我 们 就 可 以 计算 z =g(x' |6) 。 模 型 g() 应 该 小 心 选择 ， 使 之 能 够 学 习 
喘 射 。 可 能 不 再 是 唯一 最 优 的 ， 因 而 存在 通常 与 最 小 化 有 关 的 所 有 问题 ， 即 初始 化 、 局 部 最 
to. WE, 

在 Isomap 和 LLE 中 ， 存 在 局 部 信息 ， 该 信息 在 近邻 上 传播 ， 以 得 到 全 局 解 。 在 Isomap 
H, 测 地 距离 是 局 部 距离 的 和 ; Æ LLE 中 ， 最 终 放置 z 的 最 优 解 考虑 了 所 有 局 部 W AE 
Wa 和 6b 是 近邻 ,，b 和 c 是 近邻 。 尽 管 a Me 可 能 不 是 近邻 ,但 是 a 和 < 之 间 的 依赖 性 或 者 
WEK, du = du + di.， 或 者 通过 权重 Ws 和 Wi. 而 存在 。 在 这 两 个 算法 中 ， 全 局 非 线 性 组 织 
通过 整合 部 分 重生 的 局 部 线性 约束 而 发 现 。 


6.9 注释 


特征 选择 算法 的 一 个 综述 在 Devijer 和 Kittler 1982 中 给 出 。 特 征 子 集 选 择 算 法 又 称 包 装 
(wrapper) 方 法 ， 其 中 特征 选择 被 看 作 " 包 衷 "在 学 习 方法 上 作为 子 例 程 使 用 (Kohavi 和 John 
1997) Miller 1990 讨论 了 回归 中 的 子 集 选 择 。 我 们 讨论 的 向 前 和 向 后 搜索 过 程 是 局 部 搜索 
过 程 。Fukunaga 和 Narendra(1977 ) 提出 了 一 种 分 支 和 限制 (branch 和 bound) 过程 。 以 更 大 的 
开销 为 代价 ， 我 们 可 以 使 用 诸如 模拟 退火 或 者 遗传 算法 这 样 的 随机 过 程 ， 在 搜索 空间 中 进行 
更 广泛 的 搜索 。 

还 有 一 些 用 于 特征 选择 的 过 滤 (filtering) 算 法 ， 其 中 启发 式 度 量 在 预 处 理 阶 段 用 来 
计算 特征 的 “相关 性 ”， 而 不 实际 使 用 学 习 方 法 。 例 如 ， 对 于 分 类 ， 取 代 每 步 训 练 和 检 
验 一 个 分 类 器 ， 我 们 可 以 使 用 像 在 线性 判别 式 分 析 所 用 的 可 分 性 度量 来 度量 在 新 空间 
中 把 类 彼此 分 开 的 质量 (MecLachlan 1992) 。 随 着 计算 费用 的 降低 ， 最 好 在 循环 中 包含 学 
习 方 法 ， 因 为 不 能 保证 过 滤 方 法 使 用 的 启发 式 度量 与 使 用 特征 的 学 习 方 法 的 偏 傈 匹配 。 
启发 式 度量 都 不 能 取代 实际 的 验证 准确 率 。Guyon 和 Elisseef(2003 ) 给 出 了 特征 选择 方 
法 的 综述 。 

投影 方法 需要 数值 输入 ， 并 且 离 散 变量 应 该 用 0/1 哑 变 量 表示 ， 而 子 集 选 择 可 以 直接 使 
用 离散 输入 。 寻 找 特征 向 量 和 特征 值 是 非常 直接 的 ， 一 个 代码 的 例子 在 Press 等 1992 中 给 
出 。 因 子 分 析 是 由 英国 的 心理 学 家 Charles Spearman 引入 的 ， 用 于 发 现 智力 的 单个 因素 ,来 
解释 不 同 智力 测试 得 分 之 间 的 联系 。 这 种 单个 因子 ( 称 为 g) 的 存在 性 是 讨论 的 课题 。 更 多 关 
于 多 维 定 标的 信息 可 以 在 Cox 和 Cox 1994 中 找到 。 

我 们 讨论 的 投影 方法 是 批 过 程 ， 因 为 它们 要 求 在 发 现 投影 方向 之 前 给 定 整个 的 样本 。 
Mao 和 Jain( 1995) 讨论 做 PCA 和 LDA 的 在 线 过 程 ， 其 中 样 例 被 逐个 给 出 ， 并 且 更 新 随 新 实 
例 的 到 达 而 进行 。 做 非 线性 投影 的 另外 一 种 可 能 的 方法 是 Sammon 映射 的 估计 被 取 作 非 线 性 
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图 数 ， 例 如 ， 多 层 感 知 器 ( 见 11. 11 节 ) (Mao 和 Jain 1995 ) 。 进 行 非 线性 的 因子 分 析 也 是 可 
能 的 ， 但 是 相当 困难 。 当 模型 是 非 线性 的 时 ， 构 建 一 个 正确 的 非 线 性 模型 是 很 困难 的 。 我 们 
还 需要 用 复杂 的 优化 和 通 近 方法 来 求解 模型 参数 。 

更 多 的 信息 可 以 参阅 Isomap 的 主页 http://web. mit. edu/cocosci/isomap. html 和 LLE fy E 
页 http://www. es. toronto. edu/ ~ roweis/lle/， 它 们 都 包含 相关 发 表 物 和 实例 代码 的 链接 。 

正如 我 们 通过 把 高 阶 项 看 作 附 加 的 输入 ， 使 用 线性 回归 来 实现 多 项 式 回归 ( 见 5.8 
节 ) 一 样 ， 男 一 种 实现 非 线 性 维 归 约 的 方法 是 首先 使 用 非 线 性 基 函 数 映射 到 新 空间 ， 然 
后 在 新 空间 使 用 线性 模型 。 在 第 13 章 我 们 讨论 核 方法 将 会 看 到 如 何 有 效 地 实现 这 一 
做 法 。 

特征 提取 和 决策 制定 之 间 有 一 个 权衡 。 如 果 特 征 提取 很 好 ， 分 类 (或 回归 ) 的 任务 
变 得 微不足道 。 例 如 ， 当 类 代码 被 作为 新 的 特征 从 现 有 特征 中 提取 出 来 时 就 是 如 此 。 
另 一 方面 ， 如 果 分 类 方法 足够 好 ， 则 没有 必要 进行 特征 提取 ; 它 自 己 做 它 的 自动 特征 
选择 或 者 内 部 组 合 。 我 们 处 于 这 两 个 理想 世界 之 间 。 

存在 一 些 算法 ， 它 们 内 部 做 某 些 特 征 选择 ， 尽 管 是 以 有 限 的 方式 。 决 策 树 ( 第 9 
章 ) 在 产生 决策 树 时 进行 特征 选择 ， 而 多 层 感 知 器 (第 11 章 ) 在 隐藏 节点 做 非 线性 的 特 
征 提取 。 我 们 期 望 沿 着 这 个 方向 ， 在 耦合 特征 提取 和 其 后 的 分 类 或 回归 方面 取得 更 多 
进展 。 


6.10 JÆ 


L 假定 类 是 正 态 分 布 的 ， 在 子 集 选 择 中 ， 当 一 个 变量 被 添加 或 去 掉 时 ， 如 何 快速 计算 新 的 
判别 式 ? 例 如， 如 何 从 Si 计算 Si? 

2. 使 用 取 自 UCI 知识 库 中 的 Optdigits 实现 PCA。 对 于 不 同 数量 的 特征 向 量 ， 重 构 数 字 图 像 
并 计算 重 构 误 差 式 (6. 12)。 

3. 给 定 道路 旅行 距离 作为 输入 ， 使 用 MDS 绘制 你 所 在 州 或 国家 的 地 图 。 

4. 在 Sammon 映射 中 ， 如 果 映 射 是 线性 的 ， 即 g(x |W) = Wx， 如 何 计算 最 小 化 Sammon 应 
JRI W? 

5 重 做 习题 3。 这 次 使 用 Isomap， 其 中 仅 当 两 个 城市 之 间 有 不 经 过 其 他 城市 的 直通 道路 时 ， 
才 连 接 这 两 个 城市 。 

6. 在 Isomap 中 ， 我 们 也 可 以 使 用 邻近 点 之 间 的 马 氏 距离 ， 而 不 使 用 欧 氏 距离 。 如 果 有 的 话 ， 
这 种 方法 有 何 优 缺 点 ? 

7. 绘制 两 类 、 二 维 数据 ， 使 得 (a)PCA 和 LDA 找到 相同 的 方向 ; (b)PCA 和 LDA 找到 完全 
不 同 的 方向 。 

8. 只 要 我 们 有 对 象 两 两 之 间 的 距离 ， 就 可 以 使 用 多 维 定 标 。 只 要 我 们 有 某 种 相似 性 度量 ， 
就 完全 不 必 把 对 象 用 向 量 表示 。 你 能 给 出 一 个 例子 吗 ? 

9. 如 何 把 类 信息 结合 到 Isomap 和 LLE 中 ， 使 得 相同 类 的 距离 被 映射 到 新 空间 的 邻近 位 置 ? 

10. 在 因子 分 析 中 ， 如 果 我 们 已 经 知道 某 些 因子 ， 如 何 找到 其 余 的 因子 ? 

11. 讨论 一 个 应 用 ， 其 中 有 隐藏 因子 (不 必 是 线性 的 ) ， 并 且 因子 分 析 有 望 效果 很 好 。 
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聚 类 





在 参数 方法 中 ， 我 们 假设 样本 来 自 一 个 已 知 的 分 布 。 当 这 种 假设 站 不 住 脚 时 ， 我 们 放宽 
该 假设 ， 并 使 用 半 参 数 方法 ， 人 允许 用 混合 分 布 估计 输入 样本 。 聚 类 方法 允许 从 数据 中 学 习 混 
合 分 布 。 除 了 概率 建 模 之 外 ， 我 们 还 讨论 向 量 量化 和 层次 聚 类 。 


7.1 引言 


在 第 4 章 和 第 5 章 中 ,我们 讨论 了 密度 估计 的 参数 方法 ， 在 那里 我 们 假设 样本 X 取 自 某 
个 参数 族 ， 例 如 高 斯 族 。 在 参数 分 类 中 ， 这 对 应 为 类 密度 p(x | C; ) 假定 某 种 密度 。 参 数 方 
法 的 优点 是 ， 给 定 一 个 模型 ， 问 题 归 结 为 少量 参数 的 估计。 对 于 密度 估计 ， 参 数 是 密度 的 充 
分 统计 量 。 例 如 ， 对 于 高 斯 密度 ， 参 数 为 均值 和 协 方差 。 

尽管 参数 方法 使 用 频繁 ， 但 是 对 于 假定 并 不 成 立 的 许多 应 用 来 说 ， 假 定 一 个 严格 的 参数 
模型 可 能 是 偏 倚 根 源 。 因 此 我 们 需要 更 灵活 的 模型 。 尤 其 是 ， 假 定 高 斯 密度 对 应 假定 样本 
(例如 一 个 类 的 实例 ) 形 成 d- 维 空间 中 的 单个 分 组 ， 并 且 正 如 我 们 在 第 5 章 所 看 到 的 ， 该 分 
组 的 中 心 和 形状 分 别 由 均值 协 方差 给 定 。 

然而 ， 在 许多 应 用 中 ， 样 本 不 是 一 个 分 组 ， 而 可 能 有 多 个 分 组 。 以 手写 字符 识别 为 例 : 
有 两 种 风格 书写 数字 7; 美洲 人 的 写法 是 “7”， 而 欧洲 人 的 写法 是 中 间 有 一 个 水 平 杠 ( 与 欧洲 
人 手写 的 、 上 面 有 一 小 划 的 “1 7 以 示 区 别 ) 。 在 这 种 情况 下 ， 当 样本 包含 来 自 两 个 洲 的 实例 
时 ， 数 字 7 应 当 表 示 成 两 个 不 相交 的 分 组 。 如 果 每 个 分 组 用 一 个 高 斯 分 布 表 示 ， 则 该 类 可 以 
用 两 个 高 斯 分 布 的 混合 分 布 表示 ， 每 个 高 斯 分 布 用 于 一 种 书写 风格 。 

类 似 的 例子 是 语音 识别 ， 其 中 由 于 不 同 的 发 音 、 口 音 、 性 别 、 年 龄 等 ， 相 同 的 词 可 能 以 
不 同 的 方法 读 出 。 这 样 ， 当 没有 单个 、 通 用 的 原型 时 ， 为 了 统计 上 的 正确 性 ， 应 当 在 密度 中 
表示 所 有 这 些 不 同 的 方法 。 

我 们 称 这 种 方法 为 半 参 数 密度 估计 (semiparametric density estimation) ， 因 为 我 们 仍然 对 
样本 中 的 每 个 分 组 假定 一 个 参数 模型 。 在 第 8 章 ， 我 们 将 讨论 非 参数 方法 。 当 数据 没有 结 
构 ， 甚 至 连 混合 模型 都 不 能 使 用 时 ， 可 以 使 用 非 参 数 方法 。 本 章 我 们 致力 于 密度 估计 ， 而 将 
监督 学 习 放 到 第 12 章 。 


7.2 混合 密度 
混合 密度 (mixture density ) 记 作 


p(x) = Y ple 1G) PG) (7.1) 
其 中 G; 是 混合 分 支 (mixture component) , EKA ( group) A (cluster), p(x |9;) 是 支 密度 
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(component density), mi P(G,) 是 混合 比例 (mixture proportion)。 分 支 数 上 是 超级 参数 ， 应 当 

预先 指定 。 给 定 样 本 和 %， 学 习 对 应 估计 支 密度 和 比例 。 当 我 们 假定 支 密度 遵守 参数 模型 

时 ,我们 只 需要 估计 它们 的 参数 。 如 果 支 密度 是 多 元 高 斯 的 ， 则 我 们 有 p(x16;) ~N (m, 

3,)， 而 罗 = 1P(G;) ,pj;，Z,,11.1 是 应 当 从 独立 同 分 布 的 样本 X= fox", 中 学 习 的 参数 。 [144] 
参数 分 类 是 名 副 其 实 的 混合 模型 ， 其 中 分 组 9; 对 应 类 C;， 支 密度 p(x |G) 对 应 类 密度 

p(x |C;)， 而 P(Gi) 对 应 类 先 验 P(C.): 





p(x) = 2 P(x | C;)P(C;) 
在 这 种 监督 情况 下 ， 我 们 知道 有 多 少 个 分 组 ， 而 学 习 参 数 却 是 平凡 的 ， 因 为 我 们 有 类 标 
号 ， 即 知道 哪个 实例 属于 哪个 类 (分 支 ) 。 从 第 5 章 我 们 知道 ， 给 定 样 本 X = [x's rj， 其 
中 如 果 x'eC; 则 7=1， 否 则 7 为 0， 可 以 使 用 最 大 似 然 计算 这 些 参数 。 当 每 个 类 都 是 高 斯 
分 布 时 ， 我 们 有 混合 高 斯 分 布 ， 并 且 参 数 估计 为 








Li 
P(C) = 
Irix 
m, = Sr (7.2) 
& 二 Eri(x’ -— m,) (x - m,)" 


Er 
本 章 的 不 同 是 样本 为 X= 1x'|,， 我 们 有 非 监 督学 习 (unsupervised learning) 问题 。 我 们 只 
有 x 而 没有 标号 "， 也 就 是 说 我 们 不 知道 x 来 自 哪 个 分 支 。 这 样 ， 我 们 应 当 估计 二 者 : 第 
一 ， 我 们 应 当 估计 给 定 实例 所 属 的 分 支 标号 ris 第 二 ， 一旦 我 们 估计 了 标号 ， 我们 就 要 估计 
给 定 实例 集 所 属 分 支 的 参数 。 为 此 ， 我 们 首先 讨论 一 种 简单 的 聚 类 算法 有 -均值 ， 并 在 后 面 
证 明 它 是 期 望 最 大 化 (Expectation-Maximization ) 算 法 的 一 个 特例 。 


7. 3 -均值 聚 类 


假设 我 们 有 一 幅 图 像 ， 按 24 位 /像素 存放 ， 而 我 们 可 能 有 多 达 1 600 万 种 颜色 。 假 定 我 
们 有 8 位 /像素 的 彩色 屏幕 ， 只 能 显示 256 种 颜色 。 我 们 想 在 1 600 万 种 颜色 中 找 出 最 佳 的 [4 
256 种 颜色 ， 使 得 仅 用 了 调 色 板 中 256 种 颜色 的 图 像 看 上 去 尽 可 能 接近 原来 的 图 像 。 这 是 颜 
色 量 化 (color quantization) 问题 ， 其 中 我 们 从 高 分 辩 率 映射 到 低 分 辩 率 。 在 一 般 情况 下 ， 目 
标 是 从 连续 空间 映射 到 离散 空间 ; 这 一 过 程 称 作 向 量 量化 (vector quantization) 。 

当然 ， 我 们 总 能 均匀 地 进行 量化 ， 但 是 把 映射 表 目 指派 到 图 像 中 不 存在 的 颜色 ， 或 不 给 
图 像 中 频繁 使 用 的 颜色 分 配 附 加 的 表 目 会 错失 颜色 映射 。 例 如 ， 如 果 图 像 是 海景 ， 则 我 们 可 
望 看 到 许多 深浅 不 一 的 蓝 色 而 可 能 不 是 红色 。 因 此 ， 颜 色 映 射 表 目的 分 布 应 当 尽 可 能 接近 地 
反映 原来 的 密度 ， 将 更 多 的 表 目 放 在 高 密度 区 域 ， 而 丢弃 没有 数据 的 区 域 。 

假定 我 们 有 样本 X= |x) RMA k PA rE (reference vector)m, j=1, 0, ko 
在 我 们 的 颜色 量化 的 例子 中 , x 是 24 位 的 图 像 像素 值 ，m_, 是 颜色 映射 表 目 ， 也 是 24 位 ， 


ws 





ww ai bbt. com DOOO0O00 


88 第 7 章 





k =256, 

暂时 假定 我 们 以 某 种 方法 得 到 了 m 的 值 ; 稍 后 我 们 将 讨论 如 何 学 习 它 们 。 为 了 显示 图 
像 ， 给 定 像素 二 ， 我 们 用 颜色 映射 中 最 相似 的 、 满 足下 式 的 表 目 m, KRE 

lx -ml = minlx - m; || 

也 就 是 说 ， 我 们 使 用 参考 向 量 符号 系统 中 最 接近 的 值 ， 而 不 是 使 用 原始 数据 。m; 又 称 
码 本 向 量 (codebook vector) 或 码 字 (code word) ， 因 为 这 是 一 个 编码 /解码 过 程 (参见 图 7-1) : 
从 x' 到 i 是 使 用 编码 本 m, (i=l, o, 上) 对 数据 编码 的 过 程 ， 而 在 接收 端 ， 从 i 产生 m, 是 解 
码 。 量 化 也 能 压缩 : 例如 ， 替 代 使 用 24 位 存储 (或 在 通讯 线 上 传输 ) 每 个 x ， 我 们 可 以 只 存 
储 / 传 输 它 在 颜色 映射 中 的 下 标 i, 使 用 8 位 索引 1 到 256 中 的 值 ， 我 们 得 到 几乎 为 3 的 压缩 
率 ; 存储 /传输 的 也 是 颜色 映射 。 








下 标 产生 码 字 x'。 误 差 为 x' -x |]? 


让 我 们 看 看 如 何 计算 m: 当 x Alm, 表示 时 ， 存 在 一 个 正比 于 距离 x' - m; | 的 误差 。 
为 了 使 新 图 像 看 上 去 像 原 来 的 图 像 ， 我 们 应 当 针 对 所 有 的 像素 ， 使 该 距离 尽 可 能 小 。 总 重 构 
误差 (reconstruction error) 定 义 为 

E( {mili., xX) = È È bi lx- m, |? (7.3) 

其 中 
yi x p wR 上 x -m, || = min; || x -mj | (7.4) 
0 ”否则 

最 好 的 参考 向 量 是 最 小 化 总 重 构 误 差 的 参考 向 量 。b: 也 依赖 m;， 并 且 我 们 不 能 解析 
地 求解 这 个 优化 问题 。 对 此 ， 我 们 有 一 个 称 作 均值 聚 类 (k-means clustering) 的 迭代 过 
Fe: 首先 , 我们 以 随机 初始 化 的 m; 开始 。 然 后 ， 在 每 次 迭代 中 ， 我 们 先 对 每 个 x， 使 
用 式 (7.4) 计 算 估计 标号 (estimated labels)b;; WR b; H1, Mx 属于 分 组 m;。 然 后 ， 
一 旦 我 们 有 了 这 些 标号 ,我们 就 最 小 化 式 (7.3)。 取 它 关 于 m 的 导数 并 令 其 等 于 0， 
我 们 得 到 
Ebix 

参考 向 量 被 设置 为 它 所 代表 的 所 有 实例 的 均值 。 注 意 ， 除 了 用 估计 的 标号 b; 取代 标号 
外 ， 这 与 式 (7.2) 中 的 均值 公式 相同 。 这 是 一 个 迭代 过 程 ， 因 为 一 旦 我 们 计算 了 新 的 m,, b; 


(7.5) 
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改变 并 且 需 要 重新 计算 ， 这 反 过 来 又 影响 m;。 这 个 两 步 过 程 一 直 重复 ， 直 到 m, 稳定 ( 见 
图 7-2) 。&- 均 值 算法 的 伪 代 码 在 图 7-3 中 给 出 。 














Kk- 均值 : 初始 第 一 次 迭代 后 
E 
i E E 
erien | es E E 
0 20 40 
xX x; 
第 二 次 迭代 后 第 三 次 迭代 后 
20 EE er i Er TuRa a x 20 PR Soa ee ce aa Eh iia ts | 
G : i d 
na e a ee a Biss 
“1 of? 电钻 
人 FE 四 
la x : s 2 x ! g 
0 一 OF 
-201---------- 上 -一 一 - 和 =20}---------- 上 -一 je 
-30 i -30 J 
-40 20 0 20 40 -40 -20 0 20 40 
x x 


图 7-2 -均值 演变 。 叉 指示 中 心 位 置 。 数 据点 根据 最 近 的 中 心 标记 





初始 化 m, i=1, =, k; 例如 ， 将 m; 初始 化 为 个 随机 的 x 
Repeat 
For 所 有 的 x' eX 
ef! oR || x' 一 mi =min, || x’ - m; || 
0 否则 
For 所 有 的 m;, i=1, =, k 
mE bx /Eb: 
Until m; 收敛 











图 7-3 -均值 算法 
k- 均 值 的 一 个 缺点 是 它 是 一 个 局 部 搜索 过 程 ， 并 且 最 终 的 m, 高 度 依赖 于 初始 的 m;。 对 
于 初始 化 ， 存 在 各 种 不 同 的 方法 : 
a 可 以 简单 地 随机 选择 个 实例 作为 初始 的 m;。 
”可 以 计算 所 有 数据 的 均值 ， 并 将 一 些小 随机 向 量 加 到 均值 上 ， 得 到 个 初始 的 m;。 
”可 以 计算 主 成 分 ,将 它 的 值 域 化 分 成 个 相等 的 区 间 ， 将 数据 化 分 成 个 分 组 ， 然 
后 取 这 些 分 组 的 均值 作为 初始 中 心 。 
收敛 后 ， 所 有 的 簇 中 心 应当 涵 盖 数 据 实例 的 某 个 子 集 并 且 是 有 用 的 ， 因 此 ， 最 好 将 中 心 
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初始 化 在 有 数据 的 地 方 。 

还 有 一 些 算 法 动态 地 添加 新 中 心 或 删除 空 的 中 心 。 在 领导 者 聚 类 算法 (leader cluster 
algorithm ) 中 ， 一 个 远离 (用 一 个 闵 值 定义 ) 已 有 中 心 的 实例 导致 在 该 点 创建 一 个 新 中 心 
(我 们 将 在 第 12 章 讨论 这 样 一 种 神经 网 络 算法 ART) 。 或 者 ,一 个 涵盖 了 大 量 实例 ( ,6;/ 
N09) 的 中 心 可 以 分 裂 为 两 个 (通过 把 一 个 小 随机 向 量 加 到 两 个 拷贝 中 的 一 个 上 ， 使 得 它 
们 不 同 ) 。 类 似 地 ， 涵 盖 太 少 实例 的 中 心 可 以 删除 ， 并 从 输入 空间 的 某 个 其 他 部 分 重新 
开始 。 

人 -均值 算法 用 于 聚 类 ， 也 就 是 说 用 于 找 出 数据 的 分 组 ， 其 中 分 组 用 它们 的 中 心 ( 分 组 的 
典型 代表 ) 表 示 。 向 量 量化 是 聚 类 的 一 种 应 用 ， 但 是 聚 类 也 用 于 分 类 或 回归 阶段 之 前 的 预 处 
理 。 给 定 x*， 当 我 们 计算 时， 我 们 做 了 从 原来 的 空间 到 所 维 空间 的 映射 ， 即 映射 到 大- 维 
超 立 方 体 的 一 个 隅 角 上 。 然 后 ， 可 以 在 这 个 新 空间 学 习 回 归 或 判别 式 函数 。 我 们 将 在 第 12 
章 讨 论 这 样 的 方法 。 


7.4 期 望 最 大 化 算法 


在 太 -均值 中 ， 我 们 把 聚 类 看 作 是 寻找 最 小 化 总 重 构 误 差 的 码 本 向 量 问题 。 本 节 中 ， 我 
们 的 方法 是 概率 的 ， 并 且 我 们 寻找 最 大 化 样本 似 然 的 支 密度 参数 。 使 用 式 (7. 1) 的 混合 模 
型 ， 样 本 X= |x'|, 的 对 数 似 然 为 
£(@ |x) = log] [p(x | ®) 


= 2, log D pla" |G.) PCG) (7.6) 

其 中 gq 包含 先 验 概率 P(G;) 和 支 密度 p(x' |G;) 的 有 效 统计 量 。 不 幸 的 是 ， 我 们 不 能 解析 地 
求解 参数 ， 而 需要 借助 于 迭代 优化 。 

期 望 最 大 化 (Expectation-Maximization ，EM ) 算 法 (Dempster、Laird 和 Rubin 1977, Redner 
和 Walker 1984) 用 于 最 大 似 然 估计 ， 其 中 间 题 涉及 两 组 随机 变量 ,其 中 一 组 X 是 可 观测 的 ， 
另 一 组 Z 是 隐藏 的 。 算 法 的 目标 是 找到 参数 向 量 ， 它 最 大 化 X 的 观测 值 的 似 然 Z(@B |X)。 
但 是 ， 在 不 可 行 时 ， 我 们 关联 附加 的 隐藏 变量 (hidden variable)Z， 并 使 用 二 者 表示 潜在 的 模 
型 ， 最 大 化 式 和 2 联合 分 布 的 似 然 ， 完 全 (complete) (WSK Le( lx, Z). 

由 于 2Z 值 不 是 观测 的 ,我们 不 能 直接 求解 完全 数据 似 然 Lc。 而 是 给 定 X 和 当前 参数 值 
gq'( 其 中 1 是 迭代 次 数 )， 我 们 求 它 的 期 望 &。 这 是 算法 的 期 望 (E) 步 。 然 后 ,在 最 大 化 (M) 
AG, 我们 寻找 新 的 参数 值 P*'， 它 最 大 化 期 望 。 这 样 

E 步 : Q|) =E[Lc(® |x, Z) |x, ®'] 

M4; 四 =arg max 2( ® | 中 

Dempster, Laird 和 Rubin( 1977 ) 证 明 增 加 意味 着 增加 不 完全 似 然 

L(P'" |x) = LP |x) 

在 混合 模型 的 情况 下 ， 隐 藏 变量 是 观测 的 源 ， 即 哪个 观测 属于 哪个 分 支 。 如 果 这 些 被 给 

定 ， 例 如 ， 作 为 监督 学 习 的 类 标号 被 给 定 ， 我 们 就 想 知 道 调整 哪些 参数 ， 以 便 拟 合 数据 点 。 
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EM 方法 的 执行 过 程 如 下 : 在 E 步 ,给 定 分 支 的 当前 知识 ,我 们 佑 计 这 些 标号 ; 而 在 M 步 ， 
给 定 下 步 佑 计 的 标号 ， 我 们 更 新 我 们 的 类 知识 。 这 两 步 与 -均值 的 两 步 相 同 : b 的 计算 (E 
步 ) 和 m; 的 重新 估计 (M 步 ) 。 
我 们 定义 一 个 指示 变量 (indicator variable) 向 量 z = {z,, +, z), FP UR x 属于 簇 
G, Wz=1, BW z 为 0。z 是 多 项 式 分 布 ， 以 先 验 概率 n Ak SK, BPG) WHS. 
于 是 
P(z) = [] a? (7.7) 
观测 x' 的 似 然 等 于 它 的 概率 ， 被 产生 它 的 分 支 指定 : 
p(x' lz) = [fa (7.8) 
pi(x') 是 p(x' |G;) 的 简写 。 联 合 密度 为 
p(x',z) = Pl(z')p(x’ |z") 
而 独立 同 分 布 的 样本 X 的 完全 数据 似 然 为 
Lo(®|X,Z) = log[ lp x’',z | ®) 


= J log p(x',z' | ®) 
= > log P(z' |) + log p(x' | z',®) 
= > zlog a, + log p;(x' |B)] 
E 步 : 我 们 定义 
Q(@1 ') = 五 [log P(X,Z) |x, @'] 
= E[ Lc(® |x,Z) |x, ®') ] 
= YY ELZ|X,0'] [log m; + log p;(x' | ©") ] 





其 中 
E[z; |X,®'] = Ele |x’,®'] x 是 独立 同 分布 
= P(z = 1|x',@') z! 是 0/1 随机 变量 
_ p(x |á = 1,0') P(e, = 1) 6+) | 
= p(x |") 贝 叶 斯 规则 
p(x | @') a, 


Ep (x | P) a, 
z p(x 1G;,®')P(G.) 
p(x |G;,@') P(G;) 
= P(G;|x',®') = h; (7.9) 
RIARTE AL E 2!) E x’ 被 分 支 9; 产生 的 后 验 概率 。 因 为 这 是 概率 ， 所 以 
它 在 0 和 1 之 间 ， 并 且 与 大 均值 的 0/1" 硬 "标号 不 同 ， 它 是 “ 软 ” 标 号 。 
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M 步 : 我 们 最 大 化 2， 得 到 下 一 组 参数 值 四 … : 
中 = arg max Q( | 下 和) 


其 中 
Q(m|o') = > >》 h; [log at, + log p,(x' | b') J 
ot (7. 10) 
= È, È Aj log a, + YY h; log p,(x' | &') 
第 二 项 独立 于 mr， 并 且 作 为 拉 格 朗 日 ， 使 用 约束 Zio, = 1, 我 们 求解 
V。 > >) h; log 7; -a (Èa: -1) =0 
并 且 得 到 
T; = a (7.11) 





这 类 似 于 式 (7.2) 的 先 验 计算 。 
类 似 地 ， 式 (7. 10) 的 第 一 项 独立 于 分 支 ， 并 且 可 以 在 估计 分 支 的 参数 时 丢弃 。 我 们 解 








Vo > È hi log p(x |@) =0 (7. 12) 
如 果 我 们 假定 高 斯 分 支 p,(x' | 里) ~N(m,, S), WIM 步 为 
irl > hix" 
m” = S (7.13) 
çH = Z,h; (x' 一 m;"') (x = m)" 
ee xh} 


这 里 ， 对 于 下 步 的 高 斯 分 支 ， 我 们 计算 
:Ti | S, | "exp[ R (1/2) (x = m,)"S;)(x' —m,) | 
‘Sa, |S, | expl - (1/2) (x - m,)"S;'(x' - m,) ] 
又 一 次 ， 式 (7. 13) 与 式 (7.2) 之 间 的 相似 性 并 非 偶然 ; 估计 的 软 标号 h; 取代 了 实际 (未 
知 的 ) 标 号 rio 
EM 用 -均值 初始 化 。 在 几 次 大 均值 迭代 后 ， 我 们 得 到 中 心 m, 的 估计 ， 并 且 使 用 被 每 
个 中 心 涵盖 的 实例 ， 我 们 估计 S: 和 E/N 得 到 ri。 从 那 之 后 ， 我 们 运行 EM， 如 图 7-4 
正如 参数 分 类 ( 见 5.5 节 ) ， 使 用 小 样本 和 高 维度 ， 我 们 可 以 通过 化 简 假 设 来 正则 化 。 
当 p,(x' | 下) ~N(m,;，S) 时 ， 在 共享 协 方差 矩阵 的 情况 下 ， 式 (7. 12 ) 化 简 为 








(7.14) 


min $, > hlx' - m;)"S (xz -m,) (7.15) 
4 plx | 下) ~N(m,, SOR, ERER HERRE, RITA 
t 2 
min >) gede ml (7.16) 


这 是 我 们 在 人 -均值 聚 类 中 定义 的 重 构 误 差 式 (7.3) 。 现 在 ， 不 同 的 是 
，_ exp[ - (1/2s°) || x' - m; ||7] 


_ expl- 172s") |] x! -ml ] 7.17 
‘T Bexpl - (1/2) |x" - m, |°] jii 
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是 0 和 1 之 间 的 概率 。k- 均 值 聚 类 中 的 &b 做 071 ERR, M h 是 软 标号 ， 它 以 一 定 概率 
将 输入 指派 到 簇 中 。 当 使 用 而 不 是 关 时 ， 实 例 对 所 有 分 支 的 参数 更 新 都 有 贡献 ， 对 每 
个 分 支 以 一 定 的 概率 。 当 实例 靠近 两 个 中 心 的 中 点 时 ， 这 特别 有 用 。 这 样 ， 我 们 看 到 
上 -均值 聚 类 是 EM 用 于 高 斯 混合 模型 的 特例 ， 假 定 输入 是 独立 的 、 具 有 相等 和 共享 的 方 
Z, 并且 标 号 是 “人 硬 的 "。k- 均 值 用 圆 覆盖 输入 密度 ， 而 EM 一 般 用 任意 形状 和 任意 方向 的 
椭圆 。 











图 7-4 数据 点 和 被 EM 拟 合 的 高 斯 分 布 ， 被 图 7-2 的 一 个 二 均值 达 代 初始 化 。 
不 像 - 均 值 ，EM 允许 估计 协 方差 矩阵 。 图 中 显示 了 被 较 大 的 h; 标记 
的 数据 点 、 估 计 的 高 斯 密度 的 围 线 和 h; =0. 5 的 分 离 曲 线 ( 虚线 ) 


7.5 潜在 变量 混合 模型 


当 全 协 方差 矩阵 与 高 斯 混合 分 布 一 起 使 用 时 ， 即 使 没有 奇异 性 ， 如 果 输 入 维度 很 高 而 样 
本 很 小 ， 仍 然 有 过 分 拟 合 的 危险 。 为 了 减少 参数 的 个 数 而 假定 具有 共同 的 协 方差 矩阵 可 能 并 
不 正确 ， 因 为 簇 实际 上 可 能 具有 不 同 的 形状 。 假 定 对 角 甜 阵 可 能 更 危险 ， 因 为 这 排出 了 所 有 
的 相关 性 。 另 一 种 选择 是 在 簇 中 做 维 归 约 。 这 减少 了 参数 个 数 ， 但 仍然 捕获 相关 性 。 自 由 参 
数 的 数量 通过 约 化 空间 的 维度 控制 。 
当 我 们 在 簇 中 做 因子 分 析 时 ， 我 们 寻找 产生 簇 中 数据 的 潜在 交 量 (latent variable ) 或 隐藏 
变量 (hidden variable) 或 因子 (factor) ( Bishop 1999) ; 
p(x |G;) ~ N(m;,V,V; + y;) (7. 18) 
FE OV, Ail p 是 复 9, 的 因子 载荷 和 特定 方差 。Rubin 和 Thayer( 1982) 给 出 了 因子 分 析 的 EM 
方法 。 可 以 把 它 推广 到 混合 模型 ， 找 到 混合 因子 分 析 方 法 (mixtures of factor analyzers ) 
(Ghahramani 和 Hinton 1997), Æ E 4, fESK(7.9) 中 我 们 使 用 式 (7.18); 而 在 M A, 我们 
对 V, 和 p: 而 不 是 对 S, 求解 方程 (7. 12) 。 类 似 地 ， 也 可 以 在 分 组 中 做 PCA， 称 作 混 合 概率 
主 成 分 分 析 方 法 (mixtures of probabilistic principal component analyzer) ( Tipping 和 Bishop 
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1999), 

当然 ， 我 们 可 以 使 用 EM 学 习 S,, ADIEREN EFA 或 PCA， 但 是 做 EM 更 好 ， 
因为 它 将 两 个 步骤 结合 在 一 起 ， 并 做 软 划分 。 每 个 实例 对 所 有 分 组 的 潜在 变量 的 计算 都 有 贡 
HR, IEN hio 


7.6 聚 类 后 的 监督 学 习 


像 第 6 章 讨 论 的 维度 归 约 方法 一 样 ， 聚 类 可 以 用 于 两 个 目的 : 它 可 以 用 来 探查 数据 ， 理 
解数 据 的 结构 。 维 度 归 约 方法 用 来 发 现 变量 之 间 的 相关 性 ， 从 而 对 变量 分 组 。 聚 类 方法 用 来 
发 现实 例 之 间 的 相似 性 ， 从 而 对 实例 分 组 。 

如 果 找 到 这 样 的 分 组 ， 可 以 (通过 领域 专家 ) 对 它们 命名 ， 定 义 它 们 的 属性 。 我 们 可 以 
选 组 均值 作为 分 组 中 实例 的 代表 原型 ， 或 者 可 以 写 出 属性 的 可 能 值 域 。 这 可 以 更 简单 地 描述 
数据 。 例 如 ， 如 果 一 个 公司 的 顾客 看 上 去 都 归属 于 个 分 组 之 一 (顾客 通过 人 口 统计 属性 和 
与 公司 的 交易 勾画 )， 则 将 更 好 地 理解 顾客 要 素 ， 使 得 公司 可 以 对 不 同类 型 的 顾客 使 用 不 同 
的 营销 策略 ， 这 是 客户 关系 管理 (customer relationship management, CRM) 的 一 部 分 。 同 样 ， 
公司 还 可 以 为 没有 归于 大 分 组 的 顾客 ， 或 需要 特殊 关注 的 顾客 (例如 ， 定 期 买卖 的 顾客 ) 制 
定 策略 。 

聚 类 也 常常 作为 预 处 理 步 又 使 用 。 正 如 第 6 章 的 维度 归 约 使 得 我 们 可 以 映射 到 新 空间 一 
样 ， 聚 类 后 ， 我 们 也 可 以 映射 到 新 的 左 维 空间 ， 其 中 维 是 万 (或 上 站， 如 果 损 失 一 些 信息 的 
话 ) 。 在 监督 学 习 的 背景 下 ， 我 们 可 以 在 新 空间 学 习 判 别 式 或 回归 图 数 。 然 而 ， 与 诸如 PCA 
等 维度 归 约 方法 不 同 ， 新 空间 的 维度 上 可 能 比 原 空 间 的 维度 d Ko 

当 我 们 使 用 像 PCA 这 样 的 方法 时 ， 新 的 维 是 原来 的 维 的 组 合 ， 在 新 空间 表示 任意 实例 ， 
所 有 的 维 都 有 贡献 ， 即 所 有 的 2, 非 零 。 在 使 用 像 聚 类 这 种 方法 的 情况 下 ， 新 的 维 是 局 部 定义 
的 ， 存 在 很 多 新 维 5， 但 是 它们 之 中 只 有 一 个 (或 几 个 ， 如 果 使 用 hh) 具 有 非 零 值 。 在 前 一 种 情 
况 下 ， 存 在 少量 维 ， 但 都 对 表示 起 作用 ; 在 后 一 种 情况 下 ， 存 在 许多 维 , 但 只 有 少量 起 作用 。 

在 监督 学 习 前 面 使 用 非 监督 聚 类 或 维度 归 约 的 优点 是 ， 后 者 不 需要 标记 的 数据 。 标 记 数 
据 的 开销 很 大 。 我 们 可 以 使 用 大 量 未 标记 的 数据 学 习 簇 参数 ， 然 后 使 用 少量 标记 的 数据 在 第 
二 阶段 学 习 分 类 或 回归 。 非 监督 学 习 又 称 “ 学 习 通 常 发 生 的 事 " (Barrow 1989 ) 。 当 后 随 监督 
学 习 时 ， 我 们 先 学 习 通 常 发 生 的 事 ， 然 后 学 习 它 意味 什么 。 我 们 将 在 第 12 章 讨 论 这 种 方法 。 

对 于 分 类 ， 当 每 个 类 都 是 一 个 由 大 量 分 支 组 成 的 混合 模型 时 ， 整 个 密度 是 混合 的 混合 密 


度 (mixture of mixtures) : 


ki 
p(x | C,) = > pC 1 G5) PGs) 


p(x) = 2 p(x | €,)P(C,) 


JEP k 是 组 成 p(x | CIAO, GBA i Eo 正如 我 们 前 面 所 讨论 的 ， 分 别 为 每 个 
类 学 习 分 支 的 参数 (或 许 在 正则 化 之 后 ) 。 这 比 用 许多 分 支 拟 合 所 有 的 类 的 数据 ， 然 后 用 类 
标记 它们 的 方法 好 。 
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7.7 层次 聚 类 


我 们 从 统计 学 观点 讨论 了 聚 类 ， 将 聚 类 看 作用 一 个 混合 简 型 拟 合 数据 ， 或 找 出 最 小 化 重 
构 误 差 的 码 字 。 还 有 一 些 聚 类 方法 ， 它 们 只 使 用 实例 之 间 的 相似 性 ， 而 对 数据 没有 其 他 要 
R; 目标 是 找 出 分 组 ,使 得 在 同一 个 分 组 中 的 对 象 比 在 不 同 分 组 中 的 对 象 更 相似 。 这 种 方法 
通过 层次 聚 类 (hierarchical clustering) 实现 。 

这 需要 使 用 定义 在 实例 间 的 相似 性 度量 ,或 等 价 地 ， 定 义 距离 度量 。 通 常 使 用 欧 氏 路 
离 ， 其 中 我 们 需要 确保 所 有 的 属性 都 具有 相同 的 尺度 。 欧 氏 距 离 是 闵可夫 斯 基 距 离 
(Minkowksi distance) 的 特例 ， 其 中 p =2: 


dv) = [Et -| 中 
城市 块 距离 (city-block distance) 容易 计算 
dx) = Y lay - af 
HERR (agglomerative clustering) 算 法 从 WN 个 分 组 开始 ， 每 个 分 组 最 初 只 包含 一 个 训练 
实例 ， 重 复合 并 相似 的 分 组 形成 较 大 的 分 组 ， 直 到 只 有 一 个 分 组 。 分 裂 聚 类 (divisive cluste- 
ring) 以 相反 的 方向 ， 从 单个 分 组 开始 ， 并 将 较 大 的 分 组 分 裂 成 较 小 的 分 组 ， 直 到 每 个 分 组 
包含 单个 实例 。 
在 凝聚 算法 的 每 次 迭代 ， 我 们 选择 两 个 最 近 的 分 组 合并 。 在 单 链接 聚 类 ( single- link 
clustering) 中 ， 距 离 定 义 为 两 个 分 组 的 所 有 可 能 元 素 对 之 间 的 最 小 踢 离 : 
d(G;,G;) = et ED (7.19) 


考虑 一 个 加 权 的 完全 连接 的 图 ， 顶 点 对 应 实例 ， 顶 点 之 间 的 边 的 权重 对 应 实例 之 间 的 距 
离 。 单 链接 方法 对 应 构造 该 图 的 最 小 生成 树 。 
在 全 链接 聚 类 (complete-link clustering) 中 ， 两 个 分 组 之 间 的 距离 取 所 有 可 能 对 之 间 的 最 
大 距离 : 
d(G;,G;) = We as ad sx) (7. 20) 


这 两 种 是 最 频繁 使 用 的 、 用 于 选择 最 近 的 分 组 合并 的 度量 。 其 他 可 能 的 选择 是 使 用 所 
有 可 能 点 对 之 间 平 均 距离 的 平均 链接 方法 ， 度 量 两 个 分 组 形 心 ( 均 值 ) 之 间距 离 的 形 心 
距离 。 

一 旦 运行 了 凝聚 方法 ， 结 果 通 常 被 绘制 成 一 个 称 作 系统 树 图 ( dendrogram ) 的 层次 结构 。 
这 是 一 棵 树 ， 其 中 树叶 对 应 实例 ， 按 照 它 们 合并 的 次 序 分 组 。 一 个 例子 在 图 7-5 中 给 出 。 树 
可 以 在 任意 水 平 截断 ， 得 到 期 望 个 数 的 分 组 。 

单 链接 和 全 链接 方法 用 不 同 的 方法 计算 分 组 之 间 的 距离 ， 这 影响 聚 类 结果 和 系统 树 图 : 
在 单 链接 方法 中 ， 两 个 实例 在 水 平 h 合并 为 一 组 ， 如 果 它们 之 间 的 距离 小 于 h， 或 者 存在 一 
个 中 间 实 例 序列 使 得 相继 实例 之 间 的 距离 小 于 及 。 另 一 方面 ， 在 全 链接 中 ， 一 个 分 组 中 的 所 
有 实例 之 间 的 距离 都 小 于 h。 单 链接 簇 可 能 因 这 种 “链接 ”效应 而 拉 长 。( 在 图 7-5 中 ， 如 果 
在 e 和 * 中 间 有 一 个 实例 会 怎么 样 ?) 全 链接 簇 趋向 于 更 紧凑 。 
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图 7-5 二 维 数据 集 和 展示 单 链接 聚 类 结果 的 系统 树 图 。 注 意 ， 树 的 树叶 
被 排序 使 得 分 支 不 交 又 。 树 在 期 望 的 值 h 上 截断 以 得 到 簇 


7.8 选择 簇 个 数 


像 其 他 学 习 方法 一 样 ， 聚 类 也 有 自己 的 调整 复杂 度 的 控制 参数 ;这 就 是 复数 ko 给 定 k, 
聚 类 总 是 找 出 大 个 中 心 ， 不 管 它们 是 实际 上 有 意义 的 分 组 ， 还 是 我 们 使 用 的 算法 强加 的 分 
组 。 存 在 多 种 调整 的 方法 : 
a 在 某 些 诸如 颜色 量化 的 应 用 中 , 大 由 应 用 确定 。 
a (EH PCA 在 二 维 平面 绘制 数据 可 能 用 来 发 现 数据 的 结构 和 数据 中 的 簇 数 。 
a 增 量 方法 可 能 有 助 于 确定 k: 设置 允许 的 最 大 距离 等 价 于 设置 每 个 实例 的 允许 的 最 
大 重 构 误差 。 
= 在 某 些 实际 应 用 中 ,分 组 确认 可 以 人 工地 进行 ， 即 检查 簇 是 否 实际 上 对 数据 中 有 意 
义 的 分 组 编码 。 例 如 ， 在 数据 挖 气 应 用 中 ， 领 域 专 家 可 以 做 这 项 工作 。 在 颜色 量化 
中 ， 我 们 可 以 目 视 检查 图 像 ， 检 查 它 的 质量 (尽管 我 们 的 眼睛 和 大 脑 并 不 逐个 像素 分 
析 图 像 ) 。 
依赖 于 我 们 使 用 的 聚 类 方法 类 型 ， 我 们 可 以 将 重 构 误 差 或 对 数 似 然 作 为 天 的 函数 绘制 图 
形 ， 并 找 出 "拐点 ” 。 足 够 大 的 左 之后， 算法 将 开始 分 裂 分 组 ， 在 这 种 情况 下 ， 重 构 误 差 将 
不 会 大 幅度 降低 ， 对 数 似 然 将 不 会 大 幅度 提高 。 类 似 地 ， 在 层次 聚 类 ， 通 过 观察 水 平 之 间 的 
差 ， 我 们 可 以 决定 好 的 划分 。 


7.9 FER 


混合 模型 在 统计 学 中 被 频繁 使 用 。 专 门 的 教科 书包 括 Titterington Smith 和 Makov 
(1985) , McLachlan 和 Basford(1988 ) 的 书 。McLachlan and Krishnan( 1997 ) H T EM 算法 的 
最 近 进 展 、 如 何 加 快 它 的 收敛 性 和 各 种 变形 。 在 信号 处 理 过 程 中 ,大 -均值 称 作 Linde- Buzo- 
Gray( LBG ) 算 法 (Gersho 和 Gray 1992) 。A- 均 值 频繁 地 用 于 统计 学 和 信和 号 处 理 的 各 种 应 用 中 ， 
并 且 具 有 许多 变形 ， 其 中 之 一 是 模糊 k- (fuzzy k-means)。 输 入 与 分 支 的 模糊 关系 也 是 一 
个 0 和 1 之 间 的 数 (Bezdek 和 Pal 1995), Alpaydin( 1998) 比较 了 大 均值 、 模 糊 万 均 值 和 高 斯 
混合 模型 上 的 EM, Xu 和 Jordan(1996) 给 出 了 EM 与 学 习 高 斯 混合 模型 的 其 他 学 习 算法 的 比 
较 。 在 小 样本 上 ， 另 一 种 简化 假设 的 方法 是 使 用 贝 叶 斯 方法 (Ormoneit 和 Tresp 1996 ) 。 
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Moerand(1999 ) 在 一 组 分 类 问题 上 比较 了 高 斯 混合 模型 和 潜在 变量 混合 模型 ， 用 实验 展示 了 
潜在 变量 模型 的 优点 。Jain 和 Dubes (1988) 是 一 本 关于 聚 类 的 书 ， 而 Jain, Murty 和 Flynn 
(1999 ) 是 一 篇 关于 聚 类 的 综述 。 


7.10 习题 


1. 在 图 像 压缩 中 ，k- 均 值 可 以 这 样 使 用 : 图像 被 划分 成 c xc 个 窗口 ， 并 且 这 些 c? 维 向 量 
构成 样本 。 对 于 给 定 的 (通常 是 2 WE), 我们 做 -均值 聚 类 。 参 考 向 量 和 每 个 窗口 
的 下 标 通过 通信 线路 发 送 。 在 接收 端 ， 通 过 使 用 下 标 读 取 参考 向 量 表 来 重 构图 像 。 写 
一 个 计算 机 程序 ， 对 于 不 同 的 和 < 值 做 这 件 事 。 对 每 种 情况 ， 计 算 重 构 误差 和 压 
缩 率 。 

2. 我 们 可 以 做 太 均 值 聚 类 ， 划 分 实例 ， 然 后 分 别 在 每 个 分 组 计算 S;。 为 什么 这 不 是 一 种 好 
的 想法 ? 

3. 对 于 共享 任意 协 方差 矩阵 S 式 (7.15) Als? 的 情况 ， 共 享 对 角 协 方差 矩阵 式 (7. 16) 的 情 
OL, AS 推导 M 步 公 式 。 

. 定义 多 元 伯 努 利 混 合 模型 ， 其 中 输入 是 二 元 的 ， 并 推导 EM 公式 。 

. 在 分 类 混合 的 混合 密度 方法 中 ， 如 何 调整 类 C; 的 分 支 数 k? 

， 如何 用 二 元 输入 向 量 进行 层次 聚 类 ? 例如 ， 使 用 词 袋 表示 对 文本 聚 类 。 

.平均 链接 聚 类 与 纪 均 值 聚 类 之 间 的 相似 和 不 同 是 什么 ? 

. 在 层次 聚 类 中 ， 如 何 得 到 局 部 自 适 应 距离 ”这 样 做 的 优 缺 点 是 什么 ? 

. 如何 使 得 -均值 对 于 离 群 点 更 鲁 棱 ? 

10. 产生 系统 树 图 后 ， 能 够 对 它 “ 前 枝 ” 吗 ? 
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非 参数 方法 





在 前 面 的 章节 中 ， 我 们 讨论 了 参数 和 半 参 数 方法 。 在 那里 ， 我 们 假定 数据 取 自 一 个 形式 
已 知 的 概率 分 布 或 混合 分 布 。 现 在 ， 我 们 将 讨论 非 参数 方法 。 当 输入 密度 上 不 能 做 这 样 的 假 
定时 ， 可 以 使 用 非 参 数 方法 ， 并 让 数据 自己 说 话 。 我 们 考虑 密度 估计 、 分 类 和 回归 的 非 参数 
方法 ， 并 讨论 它们 的 时 间 和 空间 复杂 度 。 


8.1 引言 


在 参数 方法 中 ， 无 论 是 密度 估计 、 分 类 还 是 回归 ， 我 们 都 假设 了 一 个 在 整个 输入 空间 上 
有 效 的 模型 。 例 如 ， 在 回归 中 ， 当 我 们 假定 线性 模型 时 ， 我 们 假定 对 于 任何 输入 ， 输 出 都 是 
输入 的 相同 的 线性 函数 。 在 分 类 中 ， 当 我 们 假定 正 态 密度 时 ， 我 们 假定 类 的 所 有 实例 都 取 自 
这 个 相同 的 密度 。 参 数 方法 的 优点 是 ， 它 把 佑 计 概 率 密 度 、 判 别 式 或 回归 函数 问题 归结 为 估 
计 少 量 参数 值 。 它 的 缺点 是 ， 假 定 并 非 总 是 成 立 的 ， 并 且 不 成 立时 可 能 导致 很 大 的 误差 。 

如 果 我 们 不 能 做 这 种 假设 并 且 不 能 使 用 参数 模型 时 ， 一 种 可 能 的 方法 是 使 用 如 同 我 们 在 
第 7 章 所 看 到 的 半 参 数 的 混合 模型 ， 其 中 密度 表示 成 几 个 参数 模型 的 析 取 。 在 非 参数 估计 
(nonparametric estimation ) 中 ， 我 们 只 假定 相似 的 输入 具有 相似 的 输出 。 这 是 一 种 合理 的 假 
Be: 世界 是 平稳 的 ， 并 且 无 论 是 密度 、 判 别 式 还 是 回归 函数 都 缓慢 地 变化 。 相 似 的 实例 意味 
相似 的 事物 。 我 们 都 爱 我 们 的 邻居 ， 因 为 他 们 太 像 我 们 。 

这 样 ， 我 们 的 算法 使 用 合适 的 距离 度量 ， 从 训练 集中 找 出 相似 的 实例 ， 并 且 由 它们 插 
值 ， 得 到 正确 的 输出 。 不 同 的 非 参 数 方法 在 定义 相似 性 或 由 相似 的 训练 实例 插值 方法 方面 不 
同 。 在 参数 模型 中 ， 所 有 的 训练 实例 都 影响 最 终 的 全 局 估计 。 而 在 非 参 数 情况 下 ， 不 存在 单 
个 全 局 模型 ; 需要 时 ， 局 部 模型 被 估计 ， 它 们 只 受 邻 近 实例 的 影响 。 

在 机 器 学 习 的 文献 中 ， 非 参数 方法 又 称 基于 实例 (instance- based ) 或 基于 记忆 (memory- 
based) 的 学 习 算 法 ， 因 为 它们 所 做 的 是 把 训练 实例 存放 在 一 个 查找 表 中 ， 并 且 由 它们 插值 。 
这 意味 所 有 的 训练 实例 都 要 存放 ， 而 存放 所 有 训练 实例 需要 O(N) 存 储量 。 此 外 ， 给 定 一 个 
输入 ， 应 当 找 出 相似 的 训练 实例 ， 而 找 出 它们 需要 O(N) 计算 量 。 这 种 方法 也 称 情 性 (lazy) 
学 习 算法 ， 因 为 不 像 急切 (eager) 的 参数 方法 ， 当 给 定 训练 集 时 ， 它 们 并 不 计算 模型 ， 而 是 
将 模型 的 计算 推迟 到 给 定 一 个 检验 实例 时 才 进 行 。 对 于 参数 学 习 方法 ， 模 型 都 相当 简单 ， 具 
有 O(d) 或 0(d ) 量 级 个 参数 ， 并 且 一 旦 从 训练 集中 计算 出 这 些 参数 ， 我 们 保存 模型 并 且 在 计 
算 输出 时 就 不 再 需要 训练 集 了 。 通 常 ，N 比 d( 或 忆 ) 大 得 多 ， 而 这 种 存储 和 计算 量 的 增加 是 
非 参 数 方法 的 缺点 。 

我 们 从 估计 密度 函数 开始 ， 并 讨论 它 在 分 类 上 的 应 用 。 然 后 ， 我 们 将 该 方法 推广 到 回归 中 。 


8.2 非 参 数 密度 估计 
与 通常 的 密度 估计 一 样 ， 我 们 假设 样本 X = 1x* 上 -独立 地 从 一 个 未 知 的 概率 密度 pO) E 
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抽取 。p(*) 是 p(*) 的 估计 。 我 们 从 单 变 量 情 况 开 始 ， 其 中 x 是 标量 ， 而 稍 后 我 们 推广 到 多 
维 情况 。 
累积 分 布 函数 (x) 在 点 % 的 非 参数 估计 是 小 于 或 等 于 x 的 样本 所 占 的 比例 
F(x) = tsd (8.1) 
Hpi <a} 表示 其 x' 小 于 或 等 于 x 的 训练 样本 数 。 类 似 地 ， 密 度 函 数 的 非 参 数 估计 可 以 用 
下 式 计 算 


ale) = [+ =-#ls sal] (8.2) 


N 
其 中 h 是 区 间 长 度 ， 并且 假定 落 入 该 区 间 中 的 实例 x' 是 “足够 接近 "的 。 本 章 提供 的 技术 是 
一 些 变 体 ， 使 用 不 同 的 启发 式 策略 来 确定 邻近 的 实例 和 它们 对 估计 的 影响 。 


8.2.1 直方 图 估计 


最 古老 、 最 流行 的 方法 是 直方 图 (histogram) 。 在 直方 图 中 ， 输 入 空间 被 划分 成 称 作 箱 的 
相等 区 间 。 给 定 原点 x。 和 箱 宽 度 h， 箱 是 区 间 [xo + mh, xy + (m+1)h) (mm 是 正 整数 或 负 整 
数 ) ， 而 估计 由 下 式 给 出 





p(x) = tle 与 < 在 相同 的 箱 中 | 


在 构造 直方 图 时 ， 我 们 必须 选取 原点 和 箱 宽度 。 原 点 的 选取 影响 靠近 箱 边界 的 佑 计 ， 但 
影响 估计 的 主要 是 箱 宽 度 : 使 用 小 箱 ， 估 计 是 尖峰 的 ， 而 使 用 大 箱 ， 估 计较 光滑 (参见 
图 8-1) 。 如 果 没 有 实例 落 入 箱 中 ， 则 估计 为 0， 并 且 在 箱 边界 处 不 连续 。 直 方 图 的 优点 是 : 
一 旦 计算 和 存放 了 箱 估计 ， 我 们 就 不 再 需要 保留 训练 集 。 


(8.3) 








04 直方 图 :h=2 
0.3 
0.2 
0.1 | 
0 mint 1 1 y 4 
0 1 2 4 5 6 7 8 
0.4 k=l 
0.3 
0.2 
0.1 
0 L i 
0 1 2 3 4 5 6 7 8 
08 h=0.5 
0.6 
0.4 
0.2 
00 1 2 3 4 5 7 8 


8-1 各 种 箱 长 度 的 直方 图 。”x "表示 数据 点 
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质朴 估计 法 (naive estimator) ( Silverman 1986) 使 得 我 们 不 必 设 置 原点 。 它 定义 为 


#{x -h/2 <x <x+h| 
p(x) = Nh (8.4) 


并 且 它 等 于 x 总 是 落 在 宽度 为 h 的 箱 中 心 的 直方 图 估计 (参见 图 8-2) 。 该 估计 还 可 以 表示 为 


Fey = 2e (*5*) (8.5) 








其 中 权重 函数 定义 为 
weet f wo |u| < 1/2 
0 否则 
这 就 好 像 每 个 x' 都 有 一 个 围绕 它 的 大 小 为 疡 的 、 对 称 的 影响 区 域 ， 并 且 对 落 和 人 该 区 域 的 > 
都 贡献 1。 于 是 ， 非 参数 佑 计 恰 为 其 区 域 包含 x 的 x 的 影响 之 和 。 因 为 这 种 影响 区 域 是 “ 硬 
的 "(0 或 1)， 所 以 估计 不 是 连续 函数 并 在 x +h/2 处 有 跳跃 。 

















ie 质 梓 估计 : /2 
03 
0.2 
a1 i 
om > 3 d 5 a es 
0.4 h=1 
val 
0.2} 
0.1 
Oor ， 
0 1 2 3 4 5 6 7 8 
h=0.5 





图 8-2 各 种 箱 长 度 的 质朴 估计 


8.2.2 核 估计 


为 了 得 到 光滑 的 估计 ， 我 们 使 用 一 个 光滑 的 权重 函数 ， 称 作 核 函数 (kernel function) 。 
最 流行 的 是 高 斯 核 : 


K(u) = a ae 3 a (8.6) 
44E i+ (kernel estimator) 又 称 Parzen 窗 st ( Parzen windows), XX 
x- x 
p(x) = o(a : ) (8.7) 


核 函数 K(…) 决 定 影响 的 形状 ， 而 窗口 宽度 /决定 影响 的 宽度 。 就 像 质朴 估计 是 “ 箱 " 的 
和 一 样 ， 核 估计 是 “ 凸 块 "的 和 。 所 有 的 x' 都 对 x 上 的 估计 具有 影响 , 并且 其 影响 随 
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|x — act | 的 增加 而 平滑 地 减 小 。 

为 了 简化 计算 ,如果 |x- | 二 3h， 则 K(:) 可 以 取 0。 还 可 以 使 用 其 他 容易 计算 的 核 函 
只 要 K(w) 对 w=0 取 最 大 值 ， 并 且 随 | u | 增加 而 对 称 地 减少 。 

当 记 很 小 时 ， 每 个 训练 实例 在 一 个 小 区 域 都 具有 较 大 影响 ， 而 在 较 远 的 点 上 没有 影 
响 。 当 户 较 大 时 ， 有 更 多 的 核 重 每 ， 而 我 们 得 到 较 光 滑 的 估计 (参见 图 8-3) 。 如 果 天 (…) 
处 处 非 负 并 且 积 分 为 1， 即 如 果 它 是 合法 的 密度 函数 ， 则 p(*) 也 是 。 此 外 ，p(*) 将 继承 核 
函数 K(:) 的 连续 性 和 可 微 性 。 例 如 ， 如 果 K(:) 是 高 斯 函数 ， 则 p(:) 将 是 光滑 的 并 且 具 有 
所 有 导数 。 


数 


~ 














0.2 核 估 计 : k=l 
0.15 
0.1 
0.05 
0 Lro — 4 
0 1 2 3 4 5 6 7 
0.47 as 
03 
0.2 
0.1f 
K 1 2 3 4 5 . 3 
0.87 oe 
0.6 
0.4} 
0.2} 
0 ee wi 
0 1 2 3 4 5 6 7 8 


图 8-3 各 种 箱 长 度 的 核 估计 


一 个 问题 是 窗口 宽度 在 整个 输入 空间 上 是 固定 的 。 已 经 提出 各 种 自 适 应 方法 将 hh AE x 
周围 密度 的 函数 。 


8.2.3 k- 最 近邻 估计 


估计 的 最 近邻 方法 调整 光滑 量 使 之 适应 数据 的 局 部 密度 。 光 滑 度 被 所 考虑 的 近邻 数控 
制 。 近 邻 数 远 小 于 样本 规模 N。 我 们 定义 a Alb 之 间 的 距离 ， 如 为 |a -4b|， 并 对 每 个 x%， 
我 们 定义 

di(x) < d,(x) S++ Sdy(x) 

为 从 x 到 样本 中 的 点 按 递增 序 排列 的 距离 :d(x) 是 最 近 的 样本 的 距离 ，d,(x) 是 次 近 样 本 的 
距离 ， 如 此 下 去 。 如 果 x' 是 数据 点 ， 则 我 们 定义 d1(x) = min, |x-x |, JF AMR i 是 最 近 
样本 的 下 标 ， 即 i=arg min, |x-x |, W) d,(x) =minjz; 1x 一 x | ， 如 此 下 去 。 

上 -最 近邻 (kk-nearest neighbor, k-nn) 密度 估计 为 


p(x) = mae (8.8) 
ORR h =2d,(«) ARAMA, AN TR) Ab SE BR TTAB AT Eh 并 检查 多 少 样本 落 人 人 箱 中 ， 
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而 是 固定 落 入 箱 中 的 观测 数 k， 并 计算 箱 的 大 小 。 密 度 高 的 地 方 箱 较 小 ， 而 密度 低 的 地 方 箱 
较 大 (参见 图 8-4)。 











04, k-NN 估 计 : k=5 

0.3} 

0.2 

0.1 
0 1 4 ee es j 
0 I 2 3 4 5 6 7 8 
J {=3 

0.5 
% 1 2 3 4 5 6 7 8 
it 
0 一 上 wie 4 ee ee Loe | 
0 1 2 3 4 5 6 7 8 


8-4 各 种 大 值 的 大 最 近邻 估计 


k-nn 估计 不 是 连续 的 ; 它 的 导数 在 所 有 的 坟 (x +29) 上 不 具有 连续 性 ， 其 中 x i 


样本 的 顺序 统计 量 。k-nn 不 是 概率 密度 函数 ， 因 为 它 的 积分 为 ， 而 不 是 1。 
为 了 得 到 更 光滑 的 估计 ， 我们 可 以 使 用 其 影响 随 距 离 增加 而 减 小 的 核 函 数 


a 1 x x — x! 
这 就 像 具 有 自 适 应 光滑 参数 hh =d, (x) 的 核 估 计 。 通 常 ，K(:) 取 高 斯 核 。 
8.3 到 多 元 数据 的 推广 
给 定 d- 维 观测 的 样本 X= (x) a ， 多 元 核 密度 估计 为 





p(x) = 03K {> ==) (8.10) 
满足 必要 条 件 
Í K(x)dx = 1 
Ra 
一 个 显然 的 候选 是 多 元 高 斯 核 : 
_ /1 \' Ju]? 
K(u) = (=) exp | - 7 | (8.11) 


然而 ， 由 于 维 灾难 (curse of dimensionality) ， 在 高 维 空间 使 用 非 参 数 估计 时 需要 小 心 : 
邻 x 是 8 维 的 ， 我们 使 用 每 维 10 个 箱 的 直方 图 ， 则 有 10° 个 箱 。 除 非 我 们 有 大 量 数据 ， 否 
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则 大 部 分 箱 为 空 ， 并 且 那 里 的 估计 为 0。 在 高 维 空间 ,“ 近 邻 "概念 也 变 得 模糊 不 清 ， 因 此 在 
选择 h 时 需要 小 心 。 

例如 ， 式 (8. 11) 中 欧 几 里 得 范 数 的 使 用 意味 核 在 所 有 维 上 都 具有 相等 的 尺度 。 如 果 输 
入 具有 不 同 的 尺度 ， 则 应 当 将 它们 规范 化 ， 使 其 具有 相同 的 方差 。 这 还 没有 考虑 相关 性 ， 并 
且 当 核 函数 与 潜在 的 分 布 具 有 相同 形式 时 ， 将 获得 更 好 的 结果 


1 T pai 
K(u) = aor er l-z" S'u | (8.12) 


其 中 S 是 样本 协 方差 矩阵 。 这 对 应 使 用 马 氏 距离 而 不 是 欧 氏 距离 。 

也 可 以 使 用 局 部 距离 度量 ， 其 中 5 由 x 附近 的 实例 计算 ， 例 如 由 最 近 的 上 个 实例 计算 。 
注意 ， 局 部 计算 的 S 可 能 是 奇异 的 ， 可 能 需要 PCA( 或 是 LDA ， 在 分 类 的 情况 中 ) 。 

如 果 输 入 是 离散 的 ， 则 我 们 可 以 使 用 汉 明 距离 (Hamming distance) ， 它 对 不 匹配 的 属性 
计数 


HD(x,x') = D1; # x) (8. 13) 
其 中 
TET = WR x, F Hx; 
0 Fn 


然后 ， 在 使 用 1z -x | 或 (x -x')"'S "(x 一 x') 的 地 方 使 用 HD (x, x') 进 行 核 估计 或 找 
出 大 个 最 近邻 。 


8.4 非 参数 分 类 


当 用 于 分 类 时 ， 我 们 使 用 非 参 数 方法 估计 类 条 件 密度 p(x | C; ) 。 类 条 件 密度 的 核 估 计 
由 下 式 给 出 





1 2 x-x')\, 
Pll CD) = ya (AG Jr (8.14) 
其 中 如 果 x'e C;， 则 7 为 1， 否 则 为 0。N, 是 属于 C, 的 标记 实例 数 ; N， = Dro 先 验 密度 
的 MLE 是 P(C,) =N,/N。 于 是 ， 判 别 式 可 以 表示 为 


gi(x) = p(x|C,)P(C,) 
i < x-x')\, 
ay? dae h 
并 且 x 被 指派 到 判别 式 取 最 大 值 的 类 。 公 共 因子 17CNA4) 可 以 忽略 。 这 样 ， 每 个 训练 实例 都 
为 它 的 类 投票 ， 而 对 其 他 类 没有 影响 ;投票 的 权重 由 核 函数 K(:) 给 定 ， 通 常 赋予 更 近 的 实 


例 更 高 的 权重 。 
对 于 -nn 估计 的 特殊 情形 ， 我 们 有 


、 k, 
p(x |C) = NV (x) 
Hep k 是 大 个 最 近邻 中 属于 C ERR, V(x) Ex, FRA r= x -xn | 的 


(8. 15) 





(8. 16) 
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d- 维 超 球 的 体积 ， 这 里 xb 是 (所 有 类 x 的 近邻 中 ) 第 k 个 距离 x 最 近 的 观测 : V =r ca, ca 
是 d 维 单位 球 的 体积 。 例 如 ，c, =2，c, =m, c, =4m/3， 如 此 等 等 。 于 是 
_ B(x|C)P(C) _ ki 
x) k 

k-nn 分 类 法 (k-nn classifier) 将 输入 指派 到 输入 的 下 个 最 近邻 中 具有 最 多 实例 的 类 。 所 
有 的 近邻 都 有 相同 的 投票 权 ， 并 且 选 取 上 个 近邻 中 具有 最 多 投票 者 的 类 。 平 局 随意 打破 或 
用 加 权 投 票 。 通 常 ,，k 取 奇 数 ， 以 减少 平局 : 难以 区 分 的 情况 一 般 出 现在 两 个 相 邻 的 类 
之 间 。 

再 则 ， 欧 氏 距 离 的 使 用 对 应 假定 不 相关 的 输入 具有 相同 的 方差 。 如 果 不 是 这 种 情况 ， 应 
当选 择 合适 的 度量 。 一 个 例子 是 判别 式 自 适应 最 近邻 ( discriminant adaptive nearest neighbor ) 
( Hastie 和 Tibshirani 1996) ， 那 里 局 部 地 估计 将 类 分 离 的 最 佳 距离 。 

k-nn 的 一 种 特殊 情况 是 最 近邻 分 类 (nearest neighbor classifier) ， 其 中 k=1， 并 且 输 入 被 
指派 到 最 近 的 模式 所 在 的 类 。 这 将 空间 划分 成 Voronoi 图 ? ( Voronoi tesselation ) 形式 (参见 
图 8-5)。 


P(C, | x) 





(8.17) 











X 


图 8-5 ”虚线 是 Voronoi 图 ， 而 实 线 是 判别 式 。 在 精简 的 最 近邻 中 ， 可 以 删除 
那些 不 参与 定义 判别 式 的 实例 (用 ”* "标记 ) 而 不 增加 训练 误差 


8.5 精简 的 最 近邻 


非 参 数 方法 的 时 间 和 空间 复杂 度 与 训练 集 的 大 小 成 正比 。 已 经 提出 了 一 些 精 简 方法 ， 以 
减少 存放 的 实例 数 而 不 降低 性 能 。 其 基本 思想 是 选择 X 的 最 小 子 集 z 使 得 用 Zz 替代 X 时 ， 误 差 
不 增加 (Dasarathy 1991) 。 

最 著名 和 最 早 的 方法 是 精简 的 最 近邻 (condensed nearest neighbor) ， 那 里 使 用 1- nn 作为 
分 类 的 非 参 数 估计 (Hart 1968) 。1- mn 以 分 段 线形 的 方式 允 近 判别 式 ， 并 且 只 需要 保存 定义 





© Voronoi tesselation 又 称 Voronoi diagram， 是 Georgy Voronoi 提出 的 。 它 由 一 组 由 连接 两 个 相 邻 点 线段 的 垂直 平分 线 
组 成 的 多 边 形 组 成 。 译 者 注 
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判别 式 的 实例 。 类 区 域内 部 的 实例 不 必 作 为 它 的 同一 类 的 最 近邻 存放 ， 并 且 它 的 缺失 不 会 导 
致 (训练 集 上 的 ) 任何 错误 ( 见 图 8-5) 。 这 样 的 子 集 称 作 相 容 子 集 ， 并 且 我 们 希望 找 出 最 小 的 
相 容 子 集 。 

Hart 提出 了 一 种 发 现 z 的 贪心 算法 ( 见 图 8-6) : 该 算法 从 空 集 z 开 始 ， 以 随机 次 序 逐 个 扫 
描 x 中 的 实例 ， 并 检查 它们 是 否 能 够 被 1-nn 用 已 经 在 z 中 的 实例 正确 地 分 类 。 如 果 一 个 实例 
被 错误 分 类 ， 则 将 它 添加 到 z 中 ; 如 果 它 被 正确 分 类 ， 则 z 不 变 。 应 当 扫 描 数据 集 多 遍 ， 直 
到 没有 实例 再 添加 到 z 中 。 该 算法 进行 局 部 搜索 ， 并 且 依 赖 于 看 到 训练 实例 的 次 序 ， 可 能 找 
出 不 同 的 子 集 ， 每 个 子 集 在 验证 数据 上 具有 不 同 的 准确 率 。 因 此 ， 不 能 保证 找到 最 小 的 相 容 
子 集 。 找 出 最 小 相 容 子 集 是 NP- 完 全 问题 (Wilfong 1992) 。 








Zo 
Repeat 
For 所 有 的 x eX( 以 随机 次 序 ) 
PR x! ez 使 得 上 |x-x || = minez |x- || 
If class(x) 关 class(x') 将 x 添加 到 Zz 中 
Until ZÆ 











图 8-6 精简 的 最 近邻 算法 
精简 的 最 近邻 是 一 种 贪心 的 算法 ， 旨 在 最 小 化 训练 误差 和 用 存放 的 子 集 规模 度量 的 复杂 
度 。 我 们 可 以 写 一 个 增 广 的 误差 函数 
E'(Z|X) = EX|Z) +alzZ| (8. 18) 
Hp E |1z) 是 存放 Zz 在 X 上 的 误差 。|1Z| 是 z 的 基数 ， 而 第 二 项 是 对 复杂 度 加 罚 。 与 所 有 的 
正则 化 方案 一 样 ，A 体现 误差 与 复杂 度 之 间 的 折 中 ， 使 得 对 于 较 小 的 入 ， 误 差 变 得 更 重要 ， 
并 且 随 着 A 增 大 ， 对 复杂 的 模型 加 更 大 的 罚 。 尽 管 精简 的 最 近邻 是 一 种 最 小 化 式 (8. 18 ) 的 
方法 ,但 是 还 可 以 设计 优化 它 的 其 他 算法 。 


8.6 非 参数 回归 : 光滑 模型 
在 回归 中 ， 给 定 训练 集 X = ix, ri, Her eR, RIRE 


r =g(x) +e 
在 参数 回归 ， 我 们 假定 某 次 多 项 式 ， 并 计算 它 的 系数 ， 最 小 化 训练 集 上 误差 的 平方 和 。 
当 不 能 假定 这 种 多 项 式 时 ， 使 用 非 参 数 回归 ; 我 们 只 假定 相近 的 x 具有 相近 的 g(x) 值 。 与 
非 参数 密度 估计 一 样 ， 给 定 x， 我 们 的 方法 是 找到 x 的 邻 域 ， 并 求 邻 域 中 r 的 平均 值 ， 计 算 
8(x)。 非 参数 回归 估计 子 又 称 光滑 子 (smoother) ， 而 该 估计 称 作 光滑 (Hardle 1990) 。 类 似 于 
密度 估计 ， 存 在 各 种 定义 邻 域 和 在 邻 域 中 取 平 均值 的 方法 。 我 们 对 一 元 变量 x 讨论 这 些 方 
法 ; 与 密度 估计 一 样 ， 使 用 多 元 核 函 数 ， 可 以 用 直截了当 的 方式 把 它们 推广 到 多 元 情况 中 。 


8.6.1 移动 均值 光滑 


如 果 我 们 像 在 直方 图 中 那样 ， 定 义 一 个 原点 和 箱 宽度 并 在 箱 中 求 r 的 平均 值 ， 则 我 们 得 
到 回归 图 (regressogram) (参见 图 8-7)。 
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4r 回归 图 光滑 : h=6 

















图 8-7 各 种 箱 长 度 的 回归 图 。”x "表示 数据 点 


blax, )r 
£a) = (8.19) 
> b(x,2') 


其 中 
b(x,a') = {! 如 果 x' 与 x 在 同一 个 箱 中 
0 ”否则 
由 于 需要 固定 原点 ， 箱 边界 上 的 不 连续 是 令 人 烦恼 的 。 像 质朴 估计 一 样 ， 在 移动 均值 光滑 


(running mean smoother) 中 ， 我 们 在 * 周围 定义 一 个 对 称 的 箱 并 在 那里 取 平均 值 ( 见 图 8-8 ) 。 
移动 均值 光滑 : -6 




















图 8-8 各 种 箱 长 度 的 移动 均值 光滑 
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Zee 
Ke) 二 (8. 20) 
2u (7 r] 
其 中 
1 wRiul <1 
w(u) = {0 ee oo 


这 种 方法 在 平滑 分 段 数 据 (例如 时 间 序 列 ) 方面 特别 流行 。 在 有 噪声 的 应 用 中 ， 我 们 可 
以 使 用 箱 中 7 的 中 位 数 ， 而 不 是 它们 的 均值 。 


8.6.2 ZXR 


与 核 估计 一 样 ， RAIT AER T E ae KY BE | A BY AK PHBL, HF AL A Bl HK HEH 
(kernel smoother) ( 见 图 8-9) : 
xox \ 
站 )r 
a(x) = 一 一 一 一 (8.21) 


LE 
通常 使 用 高 斯 核 K(') 。 替 换 固定 hh， 我 们 可 以 固定 近邻 数 k， 使 得 估计 自动 适应 x 周围 
的 密度 ， 并 且 得 到 -nn 光滑 (人 -nn smoother) 。 
核 光滑 : 全 1 

















图 8-9 各 种 箱 长 度 的 核 光滑 


8.6.3 移动 线 光滑 


替代 在 点 上 取 平 均值 和 提供 常量 拟 合 ,我 们 可 以 对 泰勒 展开 式 多 考虑 一 项 并 计算 直线 拟 
合 。 在 移动 线 光滑 (running line smoother) 中 ,我 们 可 以 使 用 邻 域 (被 A 或 定义 ) 中 的 数据 
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点 ， 并 拟 合 一 个 局 部 回归 ( 见 图 8-10) 。 














4 移动 线 光滑 : 1-6 
2} r E x* 
0 x 
—2 1 kg 1 1 L 1 fi 4 
0 1 2 3 4 5 6 7 8 
4 h=3 
2 "A r x x * 5 
| a a 
-2 1 aw x 二 1 4 L j 
0 1 2 3 4 5 6 7 8 
6r h=1 
4 
| 。 
0 x 
= 1 1 L 1 1 1 4 j 
0 l 2 3 4 5 6 T 8 


图 8-10 各 种 箱 长 度 的 移动 线 光 滑 


在 局 部 加 权 移 动 线 光滑 (locally weighted running line smoother， 称 作 loess?) 中 ,我 们 使 
用 核 加 权 使 得 较 远 的 点 对 误差 具有 较 小 影响 ， 而 不 是 使 用 邻 域 的 僵硬 定义 。 


8.7 如 何 选 择 光 滑 参 数 


在 非 参 数 方法 中 ， 对 于 密度 估计 或 回归 ， 关 键 的 参数 是 光滑 参数 ， 如 箱 宽 度 或 核 扩展 中 的 
h， 或 近邻 数 k。 目 标 是 使 得 估计 的 不 稳定 性 比 数据 点 小 。 正 如 我 们 在 前 面 已 经 讨论 的 ， 数 据 
中 的 易 变 性 的 一 个 根源 是 噪声 ， 其 他 根源 是 未 知 的 潜在 函数 。 我 们 应 当 光 滑 得 恰好 足以 克服 品 
声 一 一 不 少 也 不 多 。 使 用 太 大 的 h 或 &， 许 多 实例 都 对 点 上 的 估计 做 出 了 贡献 ， 我们 也 光滑 掉 
了 源 于 函数 的 变化 ， 存 在 过 分 光滑 。 使 用 太 小 的 或 &， 单 个 实例 具有 很 大 影响 ,我 们 其 至 没 
有 光滑 掉 噪声 ， 存 在 光滑 不 足 。 换 句 话 说 ， 小 h 或 导致 小 偏 倚 但 大 方差 。 大 h 或 降低 方差 
但 增加 偏 傈 。Geman Bienenstock 和 Doursat (1992) 讨论 了 非 参 数 估 计 的 偏 傈 和 方差 。 

这 一 要 求 明确 地 表示 在 正如 光滑 样 条 (smoothing splines) 中 所 使 用 的 正则 化 函数 中 

E [r ax) + af a(x) Pax (8. 22) 

第 一 项 是 拟 合 的 误差 。[a, b] 是 输入 区 间 ; 8C) 是 估计 函数 &8(') 的 曲率 (curvature)， 
因此 度量 变化 。 这 样 ， 第 二 项 处 罚 快速 变化 的 估计 。A 权衡 变化 和 误差 。 例 如 ， 使 用 大 A, 
我 们 得 到 更 光滑 的 估计 。 

交叉 验证 用 来 调整 hh, 或 和 A。 在 密度 估计 中 ， 我 们 选择 最 大 化 验证 集 上 似 然 的 参数 值 。 
在 监督 环境 下 ， 在 训练 集 上 试验 一 系列 候选 ( 见 图 8-11) ， 选 取 最 小 化 确认 集 上 误差 的 参 
数值 。 








© loess 意 为 局 部 回归 。 一 一 译 者 注 
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a5 两 类 的 核 估计 : /=1 





图 8-11 对 于 两 类 问题 ， 各 种 箱 长 度 的 核 估 计 。 绘 制 的 是 条 件 密度 p(x | C;) ， 顶 部 过 光滑 ， 而 底 
部 欠 光 滑 ， 但 是 究竟 哪个 最 好 还 依赖 于 验证 数据 指出 


8.8 注释 


-最 近邻 和 基于 核 的 估计 时 在 50 年 前 就 已 提出 了 ， 但 是 由 于 需要 大 量 存储 和 计算 ， 该 
方法 直到 最 近 才 流行 (Aha、Kibler 和 Albert 1991 ) 。 随 着 并 行 处 理 的 进展 ， 存 储 和 计算 价格 
逐渐 降低 ， 这 些 方法 近来 得 到 了 更 加 广泛 的 使 用 。 非 参数 估计 方面 的 教科 书 是 Silverman 
1986 和 Scott 1992。Dasarathy 1991 收集 了 许多 关于 k-nn 和 编辑 /精简 规则 的 文章 。Aha 1997 
是 更 加 近期 的 工作 的 汇集 。 

非 参 数 方法 非常 容易 在 单 指令 多 数据 (SIMD ) 机 器 上 并 行 ; 每 个 处 理 器 在 其 局 部 存储 器 
中 存放 一 个 实例 ， 而 且 并 行 地 对 该 实例 计算 核 函数 值 (Stanfil 和 Waltz 1986) 。 乘 以 核 函 数 可 
以 看 作 卷 积 ， 并 且 我 们 可 以 使 用 傅立叶 变换 更 有 效 地 计算 估计 (Silverman 1986)。 已 经 证 明 
样 条 光滑 等 价 于 核 光 滑 。 

非 参 数 估计 最 重要 的 因素 是 所 使 用 的 距离 度量 。 对 于 离散 属性 ,我们 可 以 简单 地 使 用 汉 
明 距 离 ， 那 里 我 们 只 是 累计 非 匹 配 的 属性 数 。 更 复杂 的 距离 函数 在 Wettschereck Aha 和 
Mohri 1997 以 及 Webb 1999 中 被 讨论 。 

在 人 工 智 能 中 ， 非 参数 方法 称 作 基于 案例 的 推理 (case-based reasoning)。 通 过 对 已 知 的 
类 似 旧 “案例 ”插值 找到 输出 。 这 也 允许 知识 提取 : 给 定 的 输出 可 以 用 列举 这 些 类 似 的 旧 案 
例证 明 其 合理 性 。 

由 于 其 简单 性 ，k-nn 是 最 广泛 使 用 的 非 参数 分 类 方法 ， 并 且 在 各 种 实践 应 用 中 相当 成 
功 。 已 经 证 明 (Cover 和 Hart 1967; XW Duda, Hart 和 Stork 2001): 在 大 样本 中 ， 当 N 一 om 
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时 ， 最 近邻 LE=1) 的 风险 不 超过 贝 叶 斯 风险 (我 们 能 够 得 到 的 最 好 结果 ) 的 两 倍 ， 并 且 从 这 
方面 来 讲 ， 可 以 说 “在 被 分 类 的 无 限 样本 集中 ， 一般 的 可 用 信息 包含 在 最 近邻 中 ”( Cover 和 
Hart 1967) 。 对 于 太 nn， 业 已 证 明 ， 随 着 大 趋向 于 无 穷 大 ， 其 风险 通 近 贝 叶 斯 风险 。 

非 参数 回归 在 Hirdle 1990 中 详细 讨论 。Hastie 和 Tibshirani( 1990 ) 讨论 了 光滑 模型 并 提 
出 了 加 法 模型 (additive model) ， 其 中 多 元 函数 被 表示 成 一 元 估计 的 和 。 局 部 加 权 回 归 在 
Atkeson, Moore 和 Schaal 1997 中 讨论 。 这 些 模 型 与 我 们 将 在 第 12 章 讨 论 的 径 向 基 函 数 和 混 
合 专家 模型 很 相似 。 

在 精简 的 最 近邻 算法 中 ， 我 们 看 到 只 需要 保存 训练 实例 的 一 个 子 集 ， 这 些 实 例 靠近 边 
界 ， 并 且 只 使 用 它们 就 可 以 定义 判别 式 。 这 一 思想 与 我 们 将 在 第 13 章 讨 论 的 支持 向 量 机 
(support vector machine) 非常 相似 。 第 13 章 还 将 讨论 度量 实例 之 间 各 种 核 郴 数 的 相似 性 ， 以 
及 如 何 选 择 最 好 的 核 函 数 。 把 预测 写成 训练 实例 的 影响 和 也 构成 了 高 斯 过 程 ( Gaussian 
process ) 的 基础 (参见 第 14 章 ) ， 其 中 核 孙 数 称 作 协 方差 亟 数 ( covariance function) 。 


8.9 习题 


1. 如 何 得 到 光滑 的 直方 图 ? 

2. 证 明 式 (8. 17)。 

3. 如 果 k 二 1， 精 简 最 近邻 会 怎么 样 ? 

4. 在 精简 的 最 近邻 中 ， 先 前 添加 到 Z 中 的 实例 在 之 后 的 添加 后 可 能 不 再 是 必需 的 。 如 何 找 
出 这 种 不 再 需要 的 实例 ? 

在 回归 图 中 ， 替 代 箱 中 取 平 均值 并 做 常量 拟 合 ， 我 们 可 以 使 用 落 入 箱 中 的 实例 并 做 线性 
拟 合 (参见 图 8-12) 。 写 出 代码 并 与 回归 图 做 适当 比较 。 


mi 


回归 图 线 光 滑 : A=6 




















4- 
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图 8-12 ”对 于 各 种 箱 长 度 ， 使 用 线性 拟 合 的 回归 图 
6. 为 8.6.3 节 讨 论 的 loess 写 出 误差 函数 。 
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7. 提出 一 个 移动 均值 估计 的 增 量 版 本 ， 像 精简 最 近邻 一 样 ， 它 只 在 必要 时 存放 实例 。 

8. 将 核 光滑 推广 到 多 元 数据 。 

9. 在 移动 光滑 中 ， 我 们 可 以 在 检验 点 拟 合 一 个 常数 、 一 条 线 或 一 个 高 阶 多 项 式 。 如 何在 它 
们 之 间 选 择 ? 

10. 在 移动 均值 光滑 中 ， 除 了 给 出 估计 外 ， 还 能 计算 出 指示 该 点 估计 附近 的 方差 (不 确定 性 ) 
的 置信 区 间 吗 ? 
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决策 树 是 一 种 实现 分 治 策略 的 层次 数据 结构 。 它 是 一 种 有 效 的 非 参数 学 习 方法 ， 可 以 用 
于 分 类 和 回归 。 本 章 我 们 讨论 由 给 定 的 标记 的 训练 样本 构造 决策 树 的 学 习 算法 ， 以 及 如 何 将 
决策 树 转换 成 容易 理解 的 简单 规则 的 方法 。 


9.1 引言 


对 于 参数 估计 ， 我们 定义 整个 输入 空间 上 的 模型 ， 并 使 用 所 有 的 训练 数据 学 习 它 的 参 
数 。 然 后 ， 对 任意 的 检验 输入 ， 使 用 相同 的 模型 和 参数 。 对 于 非 参 数 估计 ， 我 们 把 输入 
空间 划分 成 被 诸如 欧 几 里 得 范 数 这 样 的 距离 度量 定义 的 局 部 区 域 ， 并 对 每 个 输入 使 用 由 
该 区 域 的 训练 数据 计算 得 到 的 对 应 的 局 部 模型 。 在 非 参 数 模型 中 ， 给 定 一 个 输入 ， 识 别 
定义 局 部 模型 的 局 部 数据 的 开销 很 大 ， 需 要 计算 从 给 定 的 输入 到 所 有 训练 实例 的 距离 。 
其 计算 复杂 度 为 0( NN) o 

决策 树 ( decision tree) 是 一 种 用 于 监督 学 习 的 层次 模型 ， 由 此 ， 局 部 区 域 通过 少数 几 步 
递归 分 裂 确定 。 决 策 树 由 一 些 内 部 决策 节点 和 终端 树叶 组 成 (参见 图 9-1)。 每 个 决策 节点 
(decision node)m 实现 一 个 具有 离散 输出 的 测试 函数 广 (z) ， 标 记分 支 。 给 定 一 个 输入 ,在 
每 个 节点 应 用 一 个 测试 ， 并 根据 测试 的 输出 确定 一 个 分 支 。 这 一 过 程 从 根 节 点 开始 ， 并 递归 
地 重复 ， 直 至 到 达 一 个 树叶 节点 (leaf node) 。 这 时 ， 该 树叶 中 的 值 形成 输出 。 

















图 9-1 数据 集 和 对 应 的 决策 树 。 椭 圆 形 节点 是 决策 节点 ， 而 矩形 节点 是 树叶 
节点 。 单 变量 的 决策 节点 沿 着 一 个 轴 划 分 ， 并 且 相 继 的 划分 相互 正 交 。 
第 一 次 划分 之 后 ，|x |x 二 wo | 已 是 纯 的 ， 因 此 不 需要 再 划分 


每 个 f(x) 定 义 了 一 个 d- 维 输入 空间 中 的 判别 式 ， 将 空间 划分 成 较 小 区 域 。 在 从 根 节 点 
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沿 一 条 路 径 向 下 时 ， 这 些 较 小 的 区 域 被 进一步 划分 。f,(*) 是 一 个 简单 函数 ， 而 作为 树 写 下 
时 ,复杂 的 函数 被 分 解 成 一 系列 简单 决策 。 不 同 的 决策 树 方法 对 (*) 假 设 不 同 的 模型 ， 而 
模型 类 确定 了 判别 式 的 形状 和 区 域 的 形状 。 每 个 树叶 节点 有 一 个 输出 标号 。 对 于 分 类 ， 该 标 
号 是 类 代码 ; 而 对 于 回归 ， 它 是 一 个 数值 。 一 个 树叶 节点 定义 了 输入 空间 的 一 个 局 部 区 域 ， 
落 人 该 区 域 的 实例 具有 相同 的 输出 。 区 域 的 边界 被 从 树 根 到 该 树叶 的 路 径 上 的 内 部 节点 中 的 
判别 式 定 义 。 

决策 的 层次 安排 使 得 涵盖 输入 的 区 域 可 以 快速 确定 。 例 如 ， 如 果 决 策 是 二 元 的 ， 则 在 最 
好 情况 下 每 个 决策 去 掉 一 半 实 例 。 如 果 有 %。 个 区 域 ， 则 在 最 好 情况 下 可 以 通过 log, b 次 决策 
找到 正确 的 区 域 。 决 策 树 的 男 一 个 优点 是 可 解释 性 ， 正 如 稍 后 我 们 将 看 到 的 ， 可 以 把 决策 树 
转换 成 一 组 容易 理解 的 IF- THEN 规则 。 因 此 ， 决 策 树 非 常 流行 ， 并且 常常 比 更 准确 但 是 不 
太 好 解释 的 方法 更 可 取 。 

我 们 从 一 个 决策 节点 只 使 用 一 个 输入 变量 的 单 变量 树 开 始 ， 考 察 如 何 为 分 类 和 回归 构造 
这 样 的 树 。 稍 后 ， 我 们 将 这 种 方法 推广 到 一 个 内 部 节点 可 以 使 用 所 有 输入 的 多 变量 树 。 


9.2 单 变量 树 


在 单 变量 树 (univariate tree) 中 ， 每 个 内 部 节点 中 的 测试 只 使 用 一 个 输入 维 。 如 果 所 使 用 
的 输入 维 x; 是 离散 的 ， 取 个 可 能 的 值 之 一 ， 则 该 决策 节点 检查 x 的 值 ， 并 取 相 应 的 分 支 ， 
实现 一 个 半路 划分 。 例 如 ， 如 果 属 性 是 颜色 ， 具 有 可 能 的 值 1 红 ， 蓝 ， 绿 | ， 则 该 属性 上 的 
节点 具有 三 个 分 支 ， 每 个 对 应 该 属性 的 三 个 可 能 值 中 的 一 个 。 

决策 节点 具有 离散 分 支 ， 而 数值 输入 应 当 离散 化 。 如 果 x, 是 数值 的 (有 序 的 ) ， 则 测试 
是 比较 

falx) : > wry (9.1) 
其 中 Wyo He HE 4 EFF AY BEL ARRARAS MIA: L, = |x |x, Sw,9} AR, = 
{x |x, < wol; 称 作 一 个 二 元 划分 (binary split) 。 从 根 到 一 个 树叶 的 路 径 上 的 相继 决策 节点 
使 用 其 他 属性 进一步 把 它们 一 分 为 二 ， 产 生 相互 正 交 的 划分 。 树 叶 节 点 定义 输入 空间 中 的 超 
和 矩形 (参见 图 9-1) 。 

树 归 纳 是 构造 给 定 训练 样本 的 树 。 对 于 给 定 的 训练 集 ， 存 在 许多 对 它 进 行 无 错 编码 的 
树 ， 而 为 了 简单 起 见 ， 我 们 感 兴趣 的 是 寻找 其 中 最 小 的 树 ， 这 里 树 的 大 小 用 树 中 的 节点 数 和 
决策 节点 的 复杂 性 度量 。 寻 找 最 小 树 是 NP- 完 全 的 (Quinlan 1986) ， 而 我 们 必须 使 用 基于 启 
发 式 的 局 部 搜索 过 程 ， 在 合理 的 时 间 内 得 到 合理 的 树 。 

树 学 习 算 法 是 贪心 算法 ， 从 包含 全 部 训练 数据 的 根 开始 ， 每 一 步 都 选择 最 佳 划分 。 依 赖 
于 所 选取 的 属性 是 数值 属性 还 是 离散 属性 ， 每 次 将 数据 划分 成 两 个 或 n 个 子 集 。 然 后 使 用 对 
应 的 子 集 递归 地 进行 划分 ， 直 到 不 再 需要 划分 。 此 时 ,创建 一 个 树叶 节点 并 标记 它 。 


9.2.1 分 类 树 


在 用 于 分 类 的 决策 树 ， 即 分 类 树 ( classification tree) 中 ， 划 分 的 优 劣 用 不 纯 性 度量 (impu- 
rity measure) 定量 分 析 。 一 个 划分 是 纯 的 ， 如 果 对 于 所 有 分 支 ， 划 分 后 选择 相同 分 支 的 所 有 
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实例 都 属于 相同 的 类 。 对 于 节点 m, AN, 为 到 达 节 点 m 的 训练 实例 数 。 对 于 根 节点 ，N。 
WN, N, 个 实例 中 Ni 个 属于 C; 类 ,而 D Ni =N,。 如 果 一 个 实例 到 达 节 点 m, WERF 
C, 类 的 概率 估计 为 
Nn 
Nn 
节点 m 是 纯 的 ， 如 果 对 于 所 有 的 i，p, 为 0 或 1。 当 到 达 节 点 m 的 所 有 实例 都 不 属于 C, 
类 时 ,ph 为 0， 而 当 到 达 节点 m 的 所 有 实例 都 属于 C 类 时 ，p, 为 1。 如 果 划 分 是 纯 的 ， 则 
我 们 不 需要 进一步 划分 ， 并 可 以 添加 一 个 树叶 节点 ， 用 pi, 为 1 的 类 标记 。 一 种 度量 不 纯 性 
的 可 能 函数 是 炉 函 数 (entropy) (Quinlan 1986) (参见 图 9-2) 。 


p(C,|x,m) = ph = (9.2) 


In =- È Pn log, Pin (9.3) 
其 中 0 log 0 = 0, ERREF, HAE —P SEB ZRTR ETT SST ie BE. MEP 
两 类 问题 ， 如 果 p' =1 而 p =0， 则 所 有 的 实例 都 属于 C, 类 ， 并 且 我 们 什么 也 不 需要 发 送 ， 
HA0. We p =p’ =0.5, WRB Rk LS, FARA 1. CERI 
极端 之 间 ， 我 们 可 以 设计 编码 ， 更 可 能 的 类 用 较 短 的 编码 ， 更 不 可 能 的 类 用 较 长 的 编码 ， 每 
个 信息 使 用 不 足 一 位 。 当 存在 天 >2 个 类 时 ， 相 同 的 讨论 成 立 ， 并 且 当 p' =1/K NAA 
log, 天 。 

















0 01 02 03 04 05 06 07 08 09 1 
p 


图 9-2 PJZ ja i PR 


(Ase, REEE AEE. FAXA, HH p =p, pP =l-p, RX olp, 
1 -p) 是 非 负 函 数 ， 度 量 划 分 的 不 纯度 ， 如 果 它 满足 如 下 性 质 ( Devroye, Györ 和 Lugosi 
1996) : 
= 对 于 任意 pe[0, 1], $9(1/2, 1/2)=¢(p, 1-p). 
= $(0, 1) =$(1, 0) =0。 
当 p 在 [0, 1/2] 上 时 $4(p，1 -p) 是 递增 的 ,而 当 p 在 [1/2, 1] EHF o(p, 1-p)&Æ 
递减 的 。 
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例如 
1) Wi 
中 p,1-pP) =-p log, p - (1 -p)log,(1 - p) (9.4) 
式 (9.3) 是 天 >2 个 类 的 推广 。 
2) 基 尼 指 数 ( Gini index) ( Breiman 等 1984) 
$(p,1 -p) = 2p(1 - p) (9.5) 
3) 误 分 类 误差 
中 (P,1L-P) = 1 - max(p,1 - p) (9.6) 
这 些 都 可 以 推广 到 KK 二 2 类 ， 并 且 给 定 损失 函数 ， 误 分 类 误差 可 以 推广 到 最 小 风险 ( 习 
题 1) 。 研 究 表明 ， 这 三 个 度量 之 间 并 不 存在 显著 差别 。 
如 果 节 点 m 不 是 纯 的 ， 则 应 当 划 分 实例 ， 降 低 不 纯度 ， 并 且 有 多 个 属性 可 以 用 于 划分 。 
对 于 数值 属性 ， 可 能 存在 多 个 划分 位 置 。 在 这 些 可 能 的 划分 中 ,我 们 寻找 最 小 化 划分 后 的 不 
纯度 的 划分 ， 因 为 我 们 希望 产生 最 小 的 树 。 划 分 后 的 子 集 越 纯 ， 则 其 后 需要 的 划分 (如 果 需 
要 的 话 ) 就 越 少 。 当 然 ， 这 是 局 部 最 优 ， 并 且 不 能 保证 找到 最 小 的 决策 树 。 
BET m, Na 个 实例 中 Nw 个 取 分 支 方 这 些 是 测试 f,(x') 返 回 输出 j 的 x。 对 于 具有 nn 个 
值 的 离散 属性 ， 有 个 输出 ; 而 对 于 数值 属性 ， 有 两 个 输出 (n =2)。 在 两 种 情况 下 ， 都 满足 


N=。 Ns 个 实例 中 的 以 ,个 属于 类 C: D N = Ny. RAH, Y Ny =N, 。 
于 是 ， 给 定 节点 m、 测 试 返回 输出 j， 类 C 的 概率 估计 


x Nri 
P(C,1x,m,j) = pw = (9.7) 
而 划分 后 的 总 不 纯度 为 
n N k K 
1,=- 2 NW Pr log ps (9. 8) 


对 于 数值 属性 ， 为 了 能 够 使 用 式 (9.1) 计 算 p,,， 我 们 还 需要 知道 该 节点 的 woo TE N, 个 
数据 点 之 间 ， 存 在 N,, -1 个 可 能 的 wo: 我 们 不 需要 测试 所 有 (无 限 多 个 ) 可 能 的 点 ; 例如 ， 我 们 
只 需要 考虑 两 点 之 间 的 中 值 就 足够 了 。 还 要 注意 ， 最 佳 划分 总 是 在 属于 不 同类 的 两 个 相 邻 点 之 
间 。 这 样 ， 我 们 检查 每 一 个 ， 并 取 最 高 纯度 作为 该 属性 的 纯度 。 对 于 离散 属性 ， 不 需要 这 种 
ER 

对 于 所 有 的 离散 属性 和 数值 属性 ， 对 于 数值 属性 的 所 有 可 能 划分 位 置 ， 我 们 计算 不 纯 
E, 并 晶 选 取 具 有 最 小 炉 的 划分 位 置 ， 例 如 在 式 (9. 8) 中 度量 的 。 于 是 ， 对 于 所 有 的 不 纯 的 
分 支 ， 树 构造 递归 地 、 平 行 地 继续 进行 ， 直 到 所 有 的 分 支 都 是 纯 的 。 这 就 是 分 类 与 回归 树 
(classification and regression trees，CART) 算 法 ( Breiman 等 ，1984) ID3 算法 ( Quinlan 1986) 
和 它 的 扩展 C4. 5( Quinlan 1993) 的 基本 思想 。 算 法 的 伪 代 码 在 图 9-3 中 。 

也 可 以 说 ， 在 树 构造 的 每 一 步 ， 我 们 选择 导致 不 纯度 降低 最 多 的 划分 。 不 纯度 的 降低 是 
到 达 节 点 m 的 数据 的 不 纯度 (参见 式 (9.3)) 与 划分 后 到 达 其 分 支 的 数据 的 总 焙 (参见 
(9. 8) ) 2. 
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Generate Tree(X ) 

If NodeEntropy(V)< 6,/ * 式 (9.3) */ 
创建 一 个 树叶 ， 用 X 中 的 多 数 类 标记 
Retum 

ie—SplitAttnbute(X ) 

For x; 的 每 个 分 支 
找 出 落 入 该 分 支 的 x; 

Generate Tree(X; ) 


SplitAttribute (X ) 
MinEnt«-MAX 
For 所 有 的 属性 i=1, =, d 
If x; 是 具有 个 值 的 离散 属性 
按照 x HEX 划分 到 Xi ，…， Xa 
e*—SplitEntropy (Xi, =+, XA)/* 式 (9.8)*/ 
If e < MinEnt MinEnt+e; bestf-—i 
Else / * x; 是 数值 的 * / 
For 所 有 可 能 的 划分 
在 x; 上 将 X 划分 成 Xi, Xo 
e*—SplitEntropy (X1 , X2) 
If e< MinEnt MinEnt+e; bestf—i 
| Return bestf 











图 9-3 ”构造 分 类 树 

一 个 问题 是 这 种 划分 偏向 于 选择 具有 许多 值 的 属性 。 当 存在 许多 值 时 ， 就 存在 许多 分 
支 ， 并 且 不 纯度 可 能 很 小 。 例 如 ， 如 果 我 们 取 训 练 样本 的 编号 作为 一 个 属性 ， 尽 管 它 不 是 一 
个 合理 的 特征 ， 但 是 不 纯度 度量 将 会 选取 它 ， 因 为 这 样 的 话 ， 每 个 分 支 的 不 纯度 都 为 0。 具 
有 许多 分 支 的 节点 是 复杂 的 ， 并 且 背 离 把 类 判别 式 划 分 成 简单 决策 的 思想 。 已 经 提出 了 许多 
方法 对 这 样 的 属性 加 罚 ， 并 权衡 不 纯度 下 降 和 分 支 因子 两 个 因素 。 

当 存 在 噪声 时 ， 增 长 树 直 到 最 纯 可 能 产生 一 棵 非常 大 的 、 过 分 拟 合 的 树 。 例 如 ， 假 设 这 
种 情况 : 一 个 错误 标记 的 实例 混杂 在 一 组 正确 标记 的 实例 之 中 。 为 了 减轻 这 种 过 分 拟 合 ， 当 
节点 变 得 足够 纯 时 ， 树 构造 将 终止 ， 即 ， 如 果 1<= 9,， 则 数据 子 集 就 不 再 划分 。 这 意味 不 需 
要 使 p 都 怡 为 0 或 1， 而 只 需要 按照 某 个 阐 值 ,，zw 足 够 接近 0 或 1。 在 这 种 情况 下 ， 创 建 
一 个 树叶 节点 ， 并 将 它 标记 为 具有 最 大 pw 值 的 类 。 

6 (或 9,) 是 复杂 度 参数 ， 与 非 参 数 估计 中 的 户 或 上 一 样 。 当 它们 较 小 时 ， 方 差 大 并 且 树 
增长 较 大 ， 以 正确 反映 训练 集 ; 而 当 它们 较 大 时 ， 方 差 小 并 且 树 较 小 ， 粗 略 地 表示 训练 集 并 
且 可 能 具有 较 大 偏 倚 。 理 想 的 值 依赖 于 误 分 类 的 代价 以 及 存储 和 计算 开销 。 

一 般 地 ， 建 议 在 树叶 节点 存放 属于 每 个 类 的 后 验 概率 ， 而 不 是 用 具有 最 大 后 验 概率 的 类 
来 标记 树叶 。 这 些 概率 在 其 后 的 步骤 中 可 能 是 需要 的 。 例 如 ， 在 计算 风险 时 可 能 需要 。 注 
意 ， 我 们 不 需要 存放 到 达 节 点 的 实例 或 准确 计数 ; 比率 就 足够 了 。 
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9.2.2 回归 树 


回归 树 (regression tree) 可 以 用 几乎 与 分 类 树 完 全 相同 的 方法 构造 ， 唯 一 的 不 同 是 适合 分 
类 的 不 纯 性 度量 用 适合 回归 的 不 纯 性 度量 取代 。 对 于 节点 m， 令 X 为 X 中 到 达 节 点 m 的 子 
集 ， 即 它 是 x eX 的 满足 从 树 根 到 节点 的 所 有 决策 节点 条 件 的 所 有 x。 我 们 定义 


ERE r 如 果 x eX,: x 到达 结 点 m (9.9) 
0 否则 
在 回归 树 中 ， 划 分 的 好 坏 用 估计 值 的 均 方 误差 度量 。 令 g, 为 节点 m 中 的 估计 值 。 
E = Dy (r - g,)2b,(x') (9. 10) 


其 中 NN, = (Xe) = 》 b,(x')。 
在 节点 中 ， 我们 使 用 到 达 该 节点 的 实例 要 求 的 输出 的 均值 (如 果品 声 太 大 用 中 值 ) 
> b,x’)r 
a Cs, 
于 是 ， 式 (9. 10) 对 应 于 m 上 的 方差 。 如 果 在 一 个 节点 上 ， 误差 是 可 以 接受 的 ， 即 En 一 
9,， 则 创建 一 个 树叶 节点 ， 存 放 gw。 值 。 与 第 8 章 的 回归 图 一 样 ， 这 会 创建 在 叶 边 界 不 连续 
的 分 段 常 量 近似 。 
如 果 误 差 不 能 接受 ， 则 到 达 节 点 m 的 数据 进一步 划分 ， 使 得 诸 分 支 的 误差 和 最 小 。 与 
分 类 一 样 ， 在 每 个 节点 上 ， 我 们 寻找 最 小 化 误差 的 属性 (和 数值 属性 的 划分 阅 值 )， 然 后 递 
归 地 进行 上 述 过 程 。 


(9.11) 


DX Xm 的 取 分 支 j 的 子 集 : Ux =Xno 我 们 定义 


bya) = [LPR Xy: ARE m RAR Gan 
0 否则 
gw 是 到 达 节 点 m 的 分 支 的 估计 值 。 
> by ( x )r 
y= (9. 13) 
而 划分 后 的 误差 为 
Hs a ] E- by) byla) (9.14) 


对 于 任意 划分 ， 误 差 的 减少 由 式 (9. 10) 和 式 (9. 14) 之 差 给 出 。 我 们 寻找 这 样 的 划分 ， 
它 最 大 化 误差 的 减少 ， 或 等 价 地 ， 式 (9. 14) 取 最 小 值 。 将 入 计算 用 均 方 误差 替换 ， 类 标号 
用 平均 值 蔡 换 ， 图 9-3 的 程序 代码 可 以 用 来 训练 回归 树 。 
均 误 方差 是 一 种 可 能 的 误差 函数 ; 另 一 种 是 最 大 误差 
E = max max | 7 = Enj | bn (x) (9.15) 
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EWE, RAI RUER KARRERAK FB E BEL 
FY He 52 RAE A E PRB; 其 值 越 小 ,产生 的 树 越 大 并 且 过 分 拟 合 的 风险 越 
K; 其 值 越 大 ， 拟 合 不 足 和 过 分 光滑 的 可 能 性 越 大 (参见 图 9-4 和 图 9-5) 。 

















图 9-4 XEF o, 的 不 同 值 ， 回 归 树 光滑 。 对 应 的 树 在 图 9-5 中 


类 似 于 非 参数 回归 中 的 从 移动 均值 到 移动 直线 ， 我 们 不 是 在 实现 常量 拟 合 的 树叶 上 取 平 
均值 ， 而 是 可 以 做 线性 回归 拟 合 选 定 树叶 上 的 实例 : 
g,(X) = WTX + Wo (9. 16) 
这 使 得 树叶 上 的 估计 依赖 于 x， 并 且 产 生 较 小 的 树 ， 但 是 这 导致 树叶 节点 上 的 附加 的 计 
算 开销 。 


9.3 Hi 


通常 ， 如 果 到 达 一 个 节点 的 训练 实例 数 小 于 训练 集 的 某 个 百分比 (如 5%)， 则 无 论 是 否 不 纯 
或 是 否 有 错误 ， 该 节点 都 不 进一步 分 裂 。 其 基本 思想 是 : 基于 过 少 实例 的 决策 树 导致 较 大 方差 ， 
从 而 导致 较 大 泛 化 误差 。 在 树 完全 构造 出 来 之 前 提前 停止 树 构造 称 作 树 的 先前 枝 (prepruning) 。 

得 到 较 小 树 的 另 一 种 可 能 做 法 是 后 剪 枝 (postpruning) ， 实 践 中 比 先 剪 枝 效果 更 好 。 前 面 ， 我 
们 看 到 树 的 增长 很 贪心 ,在 每 一 步 ， 我 们 做 出 一 个 决策 ( 即 产生 一 个 决策 节点 ) 并 继续 进行 ， 绝 不 
回 淹 尝 试 其 他 可 能 的 选择 。 唯 一 的 例外 是 后 剪 枝 ， 那 里 我 们 试图 找 出 并 剪 掉 不 必要 的 子 树 。 

在 后 剪 枝 中 ， 我 们 让 树 完 全 增长 直到 所 有 的 树叶 都 是 纯 的 并 具有 和 零 训练 误差 。 然 后 ， 我 
们 找 出 导致 过 分 拟 合 的 子 树 并 剪 掉 它们 。 我 们 从 最 初 的 被 标记 的 数据 集中 保留 一 个 剪 枝 集 
(pruning set) ， 在 训练 阶段 不 使 用 。 对 于 每 棵 子 树 ， 我 们 用 一 个 被 该 子 树 覆盖 的 训练 实例 标 
记 的 树叶 节点 替换 它 。 如 果 该 树叶 在 剪 枝 集 上 的 性 能 不 比 该 子 树 差 ， 则 剪 掉 该 子 树 并 保留 树 
叶 节 点 ， 因 为 子 树 的 附加 的 复杂 性 是 不 必要 的 ; 否则 保留 子 树 。 
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例如 ， 在 图 9-5 的 第 三 棵 树 中 ， 有 一 个 从 条 件 x 二 6. 31 开始 的 子 树 。 如 果 替 换 不 增加 前 
枝 集 上 的 误差 ， 则 该 子 树 可 以 用 树叶 节点 y=0.9 替换 (如 第 二 棵 树 ) 。 注 意 ， 不 要 把 前 枝 集 
与 确认 集 混 淆 ， 它 不 同 于 确认 集 。 





图 9-5 对 于 4 的 不 同 值 ， 实 现 图 9-4 的 光滑 的 回归 树 
先 剪 枝 与 后 剪 枝 相 比 ， 先 剪 枝 较 快 ， 但 是 后 剪 枝 通常 导致 更 准确 的 树 。 
9.4 由 决策 树 提取 规则 


决策 树 能 够 提取 特征 。 单 变量 树 只 使 用 必要 的 变量 ， 并 且 在 树 构建 之 后 某 些 特征 可 能 根 
本 没有 使 用 。 我 们 还 可 以 认为 越 靠近 树 根 的 特征 从 全 局 上 讲 越 重要 。 例 如 ， 图 9-6 中 的 决策 
树 使 用 了 变量 x, x, 和 x,， 但 没有 使 用 x;。 可 以 使 用 决策 树 提取 特征 : 构建 一 棵 决策 树 ， 
并 取 该 树 使 用 的 特征 作为 男 一 种 学 习 方 法 的 输入 。 

决策 树 的 另 一 优点 是 可 解释 性 (interpretability ) : 决策 树 节点 中 的 条 件 简单 、 易 于 理解 。 
从 树 根 到 树叶 的 每 条 路 径 对 应 于 条 件 的 合 取 ， 这 是 因为 为 到 达 树 叶 ， 所 有 这 些 条 件 都 必须 满 
足 。 这 些 路 径 可 以 用 IF- THEN 规则 集 表示 ， 称 作 规 则 库 ( mle base) 。 一 种 这 样 的 方法 是 
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C4. 5 规则 (Quinlan 1993), 


x,: Age 
x,: Years in job 
x,: Gender 






图 9-6 一 棵 (假想 的 ) 决 策 树 。 由 根 到 树叶 的 每 条 路 径 都 可 以 用 一 
个 合 取 规则 表示 ， 由 该 路 径 上 决策 节点 定义 的 条 件 组 成 


例如 ， 图 9-6 的 决策 树 可 以 用 如 下 规则 集 表示 : 

R1: IF( age > 38.5)AND(years-in-job>>2.5)THEN y =0. 8 

R2: IF( age > 38.5) AND( years-in-job<2.5)THEN y =0. 6 

R3: IF(age<38. 5) AND( job-type = ‘A’ )THEN y =0. 4 

R4: IF( age <38. 5) AND( job-type = ‘B’ ) THEN y =0.3 

R5; IF(age<38. 5) AND(job- type = ‘C’ ) THEN y =0. 2 

这 样 的 规则 库 可 以 提取 知识 ; 它 容 易 理解 ， 并 且 使 得 领域 专家 可 以 验证 从 数据 学 习 得 到 的 模 
型 。 对 于 每 个 规则 ， 我 们 可 以 计算 被 该 规则 覆盖 的 训练 数据 所 占 的 百分比 ， 即 规则 的 支持 度 (rule 
support) 。 这 些 规则 反映 数据 集 的 主要 特性 : 它们 显示 了 重要 特征 和 划分 位 置 。 例 如 ， 在 这 个 ( 假 
想 的 ) 例 子 中 ， 我 们 看 到 就 我 们 的 目的 (y) 而 言 ，38 岁 或 更 年 轻 的 人 不 同 于 39 岁 或 更 年 长 的 人 。 
并 且 ， 在 后 一 组 ， 工 作 类 型 区 分 他 们 ; 而 在 前 一 组 ， 做 一 项 工作 的 年 限 是 最 好 的 区 分 特征 。 

对 于 分 类 树 ， 可 能 有 多 个 树叶 被 标记 为 相同 的 类 。 在 这 种 情况 下 ， 对 应 不 同 路 径 的 多 个 
合 取 表达 式 可 以 合并 成 一 个 析 取 (OR)。 类 区 域 对 应 于 多 个 小 区 域 的 并 ， 而 每 个 小 区 域 对 应 
一 个 树叶 定义 的 区 域 。 例 如 ， 图 9-1 的 C 类 可 以 表示 为 : 

IF(x < wi) OR( (x; > Wio)AND(x < wy) )THEN C, 

为 了 简化 ， 可 以 修剪 规则 (pruning rule) 。 剪 掉 一 棵 子 树 对 应 同时 从 一 些 规则 剪 去 一 些 项 。 可 
以 从 一 个 规则 剪 去 一 个 项 而 不 涉及 其 他 规则 。 例 如 ， 在 前 面 的 规则 集中 ， 对 于 R3， 如 果 所 有 
job-type = ‘A’ 的 人 无 论 他 的 年 龄 多 大 ， 都 具有 大 致 为 0.4 的 输出 ， 则 可 以 对 R3 前 枝 ， 得 到 

R3';IF(job-type = ‘A’ )THEN y = 0.4 
注意 ， 规 则 剪 梳 后 可 能 不 能 再 写 回 到 树 中 。 


9.5 由 数据 学 习 规 则 


正如 我 们 刚刚 看 到 的 ， 产 生 下 -THEN 规则 的 一 种 方法 是 训练 一 棵 决策 树 ， 并 把 它 转 换 
成 规则 ; 另 一 种 方法 是 直接 学 习 规则 。 规 则 归纳 (rule induction) 类似 于 树 归 纳 ， 唯 一 的 区 别 
在 于 规则 归纳 进行 深度 优先 搜索 ， 并 且 一 次 产生 一 条 路 径 ( 规 则 ) ; 而 树 归 纳 进行 宽度 优先 
搜索 ， 并 且 同 时 产生 所 有 路 径 。 

一 次 学 习 一 个 规则 。 每 个 规则 是 离散 或 数值 属性 上 条 件 的 合 取 ( 与 决策 树 一 样 ) ， 并 且 这 
些 条 件 一 次 添加 一 个 ， 以 优化 某 个 标准 ， 如 最 小 化 炉 。 我 们 说 规则 履 盖 (cover) 一 个 实例 ， 如 
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果 该 实例 满足 规则 的 所 有 条 件 。 一 旦 规则 形成 并 被 剪 校 ， 就 将 它 添加 到 规则 库 中 ， 从 训练 集中 
删除 被 它 覆 盖 的 所 有 训练 实例 ， 并 且 继续 该 过 程 ， 直 到 得 到 足够 的 规则 。 这 称 作 顺序 履 盖 
(sequential covering)。 外 循环 一 次 将 一 个 规则 添加 到 规则 库 ， 而 内 循环 一 次 将 一 个 条 件 添加 到 当 
前 规则 中 。 这 些 步 又 都 是 贪心 的 ， 并 且 不 能 保证 最 优 。 为 了 更 好 地 泛 化 ， 两 个 循环 都 有 剪 枝 步 。 
规则 归纳 算法 的 一 个 例子 是 Ripper (Cohen 1995) ， 它 基于 较 早 的 算法 Jrep ( Fiimkrantz 和 
Widmer 1994) 。 我 们 从 两 类 问题 开始 ， 并 使 用 术语 正 例 和 负 例 ， 然 后 再 推广 到 下 > 之 2 类 。 添 加 
规则 旨 在 解释 正 例 ， 使 得 如 果 一 个 实例 不 被 任何 规则 覆盖 ， 则 它 将 被 归 到 负 类 。 这 样 ， 当 规则 
匹配 时 ， 它 或 者 是 正确 的 (真正 ) ， 或 者 导致 一 个 假 正 。Ripper 的 外 循环 的 伪 代 码 在 图 9-7 中 。 
Ripper( Pos, Neg, k) 


RuleSet-—LearnRuleSet( Pos, Neg) 
For k times 





RuleSet+—OptimizeRuleSet( RuleSet, Pos, Neg) 
LearnRuleSet( Pos, Neg) 
RuleSet< 一 (他 
DL+—DescLen( RuleSet, Pos, Neg) 
Repeat 
Rule+-LearnRule( Pos, Neg) 
将 Rule 添加 到 RuleSet 
DL’ 二 DesceLen( RuleSet, Pos, Neg) 
If DL’> DL +64 
PruneRuleSet( RuleSet, Pos, Neg) 
Return RuleSet 
If DL’< DL DL-DL’ 
JA Pos 和 Neg 删除 被 Rule 覆盖 的 实例 
Until Pos = Ø 
Return RuleSet 
PruneRuleSet( RuleSet, Pos, Neg) 
For 每 个 Rule e RuleSet， 按 相反 次 序 
DL-+—DescLen( RuleSet, Pos, Neg) 
DL’ <-DescLen( RuleSet- Rule, Pos, Neg) 
If DL’< DL 从 RuleSet 中 删除 Rule 
Return RuleSet 
OptimizeRuleSet( RuleSet, Pos, Neg) 
For 每 个 Rule e RuleSet 
DLO+DescLen( RuleSet, Pos, Neg) 
DL1+DescLen( RuleSet- Rule + 
ReplaceRule( RuleSet, Pos, Neg), Pos, Neg) 
DL2+—DescLen( RuleSet- Rule + 
ReviseRule( RuleSet, Rule, Pos, Neg), Pos, Neg) 
If DLI = min( DLO, DL1, DL2) 
从 RuleSet 中 删除 Rule 并 且 
添加 ReplaceRule( RuleSet，Pos，Neg) 
Else If DL2 = min( DLO, DLI, DL2) 
从 RuleSet 中 删除 Rule 并 且 
添加 ReviseRule( RuleSet, Rule, Pos, Neg) 
Return RuleSet 











图 9-7 学 习 规则 的 Ripper 算法。 只 给 出 了 外 循环 ， 内 循环 与 在 决策 树 中 添加 一 个 节点 类 似 
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在 Ripper 中 ， 条 件 被 添加 到 规则 中 ， 以 最 大 化 Quinlan 的 Foil 算法 (1990 ) 使 用 的 信息 增 
益 度量 。 假 设 我 们 有 规则 R， 并 且 R' 是 添加 一 个 条 件 后 的 候选 规则 。 增 益 的 改变 定义 为 


N' N 
Gain(R',R) = s> (log, =F - log, —* | (9.17) 


Hop N EA RABKA, TN, PA AE RK, AS, NKR BNR, 
N' 是 其 中 的 真正 例 数 。s 是 R 中 的 真正 例 并 且 增 加 条 件 之 后 在 R' 也 是 真正 实例 的 实例 数 。 
根据 信息 理论 ， 增 益 的 变化 度量 对 一 个 正 例 编码 所 需 位 的 减少 。 

向 规则 增加 条 件 直到 它 不 再 覆盖 负 例 。 一 旦 规则 形成 ， 就 以 相反 的 次 序 对 它 前 枝 ， 以 便 
找到 最 大 化 规则 价值 度量 ( rule value metric ) 的 规则 


rm(R) = (9.18) 
p+n 


其 中 p 和 分 别 是 前 枝 集中 的 真正 例 和 假 正 例 数 。 剪 枝 集 是 数据 的 三 分 之 一 ,已 经 使 用 三 分 
之 二 的 数据 作为 增长 集 。 

一 旦 规则 形成 并 被 剪 枝 ， 就 从 训练 集中 删除 被 规则 覆盖 的 所 有 正 的 和 负 的 训练 实例 。 
如 果 还 有 正 的 实例 ， 则 继续 进行 规则 归纳 。 在 存在 噪声 的 情况 下 ， 即 当 规 则 不 能 解释 足 
够 多 的 实例 时 ， 我 们 可 能 提前 中 止 归 纳 。 为 了 度量 规则 的 价值 ， 使 用 最 小 描述 长 度 (参见 
4.8 节 )(Quinlan 1995)。 上 典型 地 ， 如 果 规 则 的 描述 长 度 不 短 于 它 所 解释 的 实例 的 描述 长 
度 ， 则 我 们 停止 。 规 则 库 的 描述 长 度 是 规则 库 中 所 有 规则 的 描述 长 度 之 和 ， 加 上 不 被 规 
则 库 覆盖 的 实例 的 描述 长 度 。 当 规则 的 描述 长 度 比 迄今 得 到 的 最 佳 描 述 长 度 多 64 位 时 ， 
Ripper 停止 添加 规则 。 一 旦 学 到 了 规则 库 ， 我 们 就 以 逆序 忽略 规则 ， 看 是 否 能 够 删除 它们 
而 不 增加 描述 长 度 。 

规则 库 中 的 规则 在 学 习 之 后 也 要 优化 。 对 一 个 规则 ，Ripper 考虑 两 种 可 供 选 择 的 方案 : 
一 种 是 置换 规则 ， 从 空 规则 开始 ， 增 长 然后 剪 枝 。 第 二 种 是 修订 规则 ， 从 规则 开始 ， 增 长 然 
后 剪 枝 。 这 两 个 规则 与 原 规则 比较 ， 并 将 三 个 中 的 最 短 者 添加 到 规则 库 中 。 规 则 库 的 这 种 优 
化 进行 k 次 ,通常 进行 两 次 。 

当 存 在 KK 二 2 个 类 时 ， 将 这 些 类 按照 它们 的 先 验 概率 排序 ， 使 得 C, 的 先 验 概率 最 低 ， 
Cy 的 先 验 概率 最 高 。 然 后 定义 一 系列 两 类 问题 。 开 始 ， 属 于 C, 的 实例 为 正 例 ， 其 他 类 的 实 
例 都 是 负 例 。 学 习 C, 的 规则 后 ， 删 除 它 的 所 有 实例 ， 学 习 将 C, 与 C;:，…，Ck 分 离开 来 。 
重复 该 过 程 ， 直 到 只 剩 下 Cx。 空 的 缺 省 规则 标记 为 Ck， 使 得 如 果 一 个 实例 不 被 任何 规则 覆 
盖 ， 则 将 它 指派 到 Cko 

对 于 大 小 为 N 的 训练 集 ，Ripper 的 复杂 度 为 0(N log? N)， 并 且 可 以 用 于 很 大 的 训练 
集 ( Dietterich 1997)。 学 习 的 规则 是 命题 规则 (propositional rule) 。 更 准确 地 说 ， 是 条 件 中 
包含 变量 的 一 阶 规则 (first-order rule) ， 称 作 谓词 (predicate) 。 谓 词 是 一 个 函数 ， 依 赖 于 其 
变 元 的 值 ， 它 返回 真 或 假 。 因 此 ， 谓词 可 以 定义 属性 值 之 间 的 关系 ， 而 命题 不 能 ( Mitch- 
ell, 1997); 

IF Father(y,x)AND Female(y) THEN Daughter(x ,y) 

在 逻辑 程序 设计 语言 (如 Prolog) 中 ， 这 种 规则 可 以 看 作 程序 ， 而 从 数据 中 学 习 它 们 称 作 
归纳 逻辑 程序 设计 (inductive logic programming) 。 一 种 这 样 的 算法 是 Foil( Quinlan 1990) 。 

将 一 个 值 指派 到 一 个 变量 称 作 绑 定 (binding) 。 如 果 训 练 集中 存在 到 变量 的 绑 定 集 ， 则 
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称 规则 匹配 。 学 习 一 阶 规则 类 似 于 学 习 命题 规则 ， 外 循环 添加 规则 ， 而 内 循环 相 规则 添加 条 
件 ， 在 内 循环 结束 时 进行 规则 剪 枝 。 不 同 的 是 ， 在 内 循环 中 ， 每 一 步 我 们 考虑 增加 一 个 谓词 
(而 不 是 命题 ) ， 并 检查 规则 的 性 能 提高 (Mitehell 1997 ) 。 为 了 评估 规则 的 性 能 ， 我 们 考虑 变 
量 的 所 有 可 能 绑 定 ， 对 训练 集中 正 的 和 负 的 绑 定 计数 ， 并 使 用 ， 例 如 式 (9. 17) 。 在 学 习 一 
阶 规则 时 ， 我 们 使 用 谓词 而 不 是 命题 ， 因 此 这 些 谓词 应 当 事 先 定义 ， 并 且 训练 集 是 已 知 为 真 
的 谓词 集 。 


9.6 多 变量 树 


在 构造 单 变量 树 时 ， 划 分 时 只 使 用 一 个 输入 维 。 在 构造 多 变量 树 (multivariate tree) 时 ， 
在 每 个 决策 节点 都 可 以 使 用 所 有 的 输入 维 ， 因 此 更 加 一 般 。 当 所 有 的 输入 都 是 数值 属性 时 ， 
二 元 线性 多 变量 节点 定义 为 





f(x) wix + wy) >0 (9.19) 

因为 线性 多 变量 节点 取 加 权 和 ， 因 此 离散 属性 应 当 用 071 哑 数 值 变量 表示 。 式 (9. 19) 

定义 了 一 个 具有 任意 方向 的 超 平面 (参见 图 9-8) 。 从 根 到 树叶 的 路 径 上 的 相继 节点 进一步 划 
分 实例 ， 而 叶 节点 定义 输入 空间 上 的 多 面体 。 具 有 数值 特征 的 一 元 节点 是 一 种 特例 ， 所 有 的 
wj 除 一 个 之 外 均 为 0。 这 样 ， 式 (9. 1) 的 单 变量 数值 节点 也 定义 了 一 个 线性 判别 式 ， 但 是 与 
hx, 正 交 于 wo， 与 其 他 轴 x; 平行 。 因 此， 我 们 看 到 在 单 变量 节点 有 4d 个 可 能 的 方向 (w) 
HN, -1 个 可 能 的 阔 值 ( - wo ) ， 使 得 穷 举 搜索 是 可 能 的 。 在 多 变量 节点 ， 有 2 Ch, 个 可 能 

的 超 平面 (Murthy 、Kasif 和 Salzberg 1994) ， 并 且 不 再 可 能 进行 穷 举 搜索 。 


x A 











图 9-8 线性 多 变量 决策 树 。 线 性 多 变量 节点 可 以 安放 任意 超 平面 ， 
因而 更 一 般 ， 而 单 变量 节点 限于 平行 于 轴 的 划分 
当 我 们 从 单 变量 节点 过 渡 到 线性 多 变量 节点 时 ， 节 点 变 得 更 灵活 。 使 用 非 线 性 多 变量 节 
点 ， 还 可 以 更 加 灵活 。 例 如 ， 使 用 二 次 方程 ， 我 们 有 
f (x) :x Wx + wx + w,) >0 (9. 20) 
Guo 和 Gelfand (1992 ) 提出 使 用 多 层 感知 器 ( 见 第 11 BE), BAAS EEA PEE BR BY 
线性 和 ， 是 另 一 种 产生 非 线 性 决策 节点 的 方法 。 还 一 种 可 能 性 是 使 用 球形 节点 (sphere node ) 
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( Devroye, Györfi 和 Lugosi 1996 ) 
fa (x): ||x -c,, || <a, (9.21) 
其 中 cw 是 球 心 ，aw 是 半径 。 

已 经 提出 了 一 些 学 习 用 于 分 类 的 多 变量 决策 树 的 算法 : 最 早 的 算法 是 CART 算法 的 多 变 
量 版 本 (Breiman 等 1984) ， 它 逐一 对 权重 ww 进行 微调 来 降低 不 纯度 。CART 还 包含 一 个 预 
处 理 步 又 ， 通 过 子 集 选择 降低 维度 ( 见 第 6 章 ) 并 降低 节点 的 复杂 度 。 一 种 对 CART 扩展 的 算 
法 是 OCI 算法 (Murthy、Kasif 和 Salzberg 1994 ) 。 一 种 可 能 的 方法 (Loh 和 Vanichsetakul 
1988 ) 是 假设 所 有 的 类 是 高 斯 的 ， 具 有 共同 的 协 方差 矩阵 ， 因 此 具有 分 离 每 个 类 的 线性 判别 
式 (第 5 章 )。 在 这 种 情况 下 ， 具 有 天 个 类 ， 每 个 节点 具有 天 个 分 支 ， 而 每 个 分 支 携 珊 一 个 
将 每 个 类 与 其 他 类 分 开 的 线性 判别 式 。Brodley 和 Utgofi( 1995) 提出 了 一 种 方法 ， 这 种 方法 训 
练 线性 判别 式 以 最 小 化 分 类 误差 (第 10 BE), Guo 和 Gelfand( 1992) 提出 了 一 种 方法 ， 将 天 > 
2 个 类 划分 为 两 个 超群 ， 然 后 学 习 二 元 多 变量 树 。Loh 和 Shih(1997 ) 使 用 2- 均 值 聚 类 (第 7 
章 ) 将 数据 聚 成 两 组 。 一 旦 类 育成 两 组 ，Yildiz 和 Alpaydın (2000 ) 就 使 用 LDA (38 6 章 ) 找 出 
判别 式 。 

任何 分 类 器 都 近似 一 个 从 假设 类 中 选取 一 个 假设 的 实际 (未 知 的 ) 判别 式 。 当 我 们 使 用 
单 变量 节点 时 ， 我 们 的 近似 使 用 分 段 的 、 平 行 于 轴 的 超 平面 。 使 用 线性 多 变量 节点 ， 我 们 可 
以 使 用 任意 的 超 平面 ， 并 且 使 用 较 少 的 节点 得 到 更 好 的 近似 。 如 果 潜 在 的 判别 式 是 曲 的 ， 非 
线性 节点 更 好 。 分 支 因子 确定 节点 定义 的 判别 式 的 个 数 ， 具 有 类 似 效 果 。 具 有 两 个 分 支 的 二 
元 决策 节点 定义 一 个 将 输入 空间 一 分 为 二 的 判别 式 。n- 路 节点 将 输入 空间 划分 成 n 部 分 。 这 
FE, 节点、 分 支 因子 和 树 大 小 之 间 存 在 相关 性 。 使 用 简单 节点 和 较 低 的 分 支 因子 可 以 得 到 一 
棵 大 树 。 但 是 ， 这 样 的 树 ( 如 有 具有 单 变 量 二 元 节点 ) 可 解释 性 更 好 。 线 性 多 变量 节点 更 难 解 
释 。 更 复杂 的 节点 也 需要 更 多 的 数据 ， 并 且 随 着 我 们 沿 树 向 下 ， 数 据 越 来 越 少 ， 更 容易 过 分 
拟 合 。 如 果 节 点 复杂 并 且 树 比较 小 ， 那 么 我 们 也 就 失去 了 通过 树 想 要 得 到 的 主要 东西 一 一 将 
问题 划分 成 一 系列 简单 问题 。 毕 竟 ， 我 们 可 以 在 根 节点 具有 一 个 非常 复杂 的 分 类 器 ， 它 区 分 
所 有 的 类 ， 但 这 样 的 话 ， 这 就 不 是 一 棵 树 了! 


9.7 注释 


自从 凯撒 将 一 个 复杂 的 问题 (如 高 卢 人 问题 ) 分 解 成 一 组 较 简 单 的 问题 以 来 ， 分 治 一 直 
被 作为 一 种 启发 式 方法 频繁 使 用 。 在 计算 机 科学 中 ， 频 繁 地 使 用 树 将 复杂 度 从 线性 降低 到 对 
数 时 间 。Breiman 等 1984 使 得 决策 树 在 统计 学 流行 ，Quinlan 1986, 1993 使 得 决策 树 在 在 机 
器 学 习 中 很 流行 。 多 变量 树 归纳 方法 最 近 才 开 始 流行 ，Yildiz 和 Alpaydın 2000 给 出 了 综述 和 
许多 数据 集 上 的 比较 。 许 多 研究 者 (如 Guo 和 Gelfand 1992 ) 将 树 的 简单 性 与 多 层 感知 器 的 准 
确 性 结合 在 一 起 ( 见 第 11 章 ) 。 然 而 ， 许 多 研究 表明 单 变量 树 相 当 准 确 、 具 有 很 好 的 可 解释 
性 ， 并 且 线 性 ( 非 线 性 ) 多 变量 节点 带 来 的 附加 的 复杂 度 很 难 被 认为 是 合理 的 。 

杂 变 量 决策 树 (omnivariate decision tree) ( Yıldız 和 Alpaydın 2001 ) 是 一 种 混合 树 结构 ， 其 
中 树 可 以 具有 单 变量 、 线 性 多 变量 和 非 线性 多 变量 节点 。 其 基本 思想 是 在 树 构 造 期 间 ， 每 个 
决策 节点 对 应 于 到 达 该 节点 的 训练 数据 子 集 定义 的 一 个 不 同 的 子 问题 ， 不 同 的 模型 可 能 更 合 
适 ， 应 当 找 出 和 使 用 合适 的 模型 。 到 处 都 用 相同 类 型 的 节点 相当 于 假定 输入 空间 的 所 有 部 分 
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都 具有 相同 的 归纳 偏 傈 。 在 杂 变 量 树 中 ， 在 每 个 节点 ， 训 练 并 在 确认 集 上 使 用 统计 检验 (第 
14 章 ) 比较 不 同类 型 的 候选 节点 ， 确 定 哪 一 个 泛 化 性 能 最 好 。 除 非 复杂 的 决策 节点 表现 出 显 
著 较 高 的 准确 率 ， 否 则 就 选取 较 简单 的 候选 节点 。 结 果 表 明 ， 在 树 构 造 的 早期 更 靠近 树 根 的 
地 方 使 用 较 复杂 的 节点 ， 并 且 随 着 我 们 沿 树 向 下 ， 简 单 的 单 变量 节点 就 是 够 了 。 随 着 我 们 越 
es Tel i EN 在 这 种 情况 下 ， 复 杂 的 节点 过 分 拟 
， 并 且 被 统计 检验 拒绝 。 随 着 我 们 沿 树 向 下 ， 节 点 的 个 数 指数 增加 。 因 此 ， 大 部 分 节点 是 
单 变量 的 ， 并 且 总 体 复 杂 度 增加 不 太 多 。 
决策 树 更 多 地 用 于 分 类 而 不 是 回归 。 它 们 非常 流行 : 它们 的 学 习 和 响应 速度 都 很 快 ， 并 
且 在 许多 领域 都 很 准确 (Murthy 1998 ) 。 由 于 它们 的 可 解释 性 ， 甚 至 在 有 更 准确 的 方法 时 ， 
决策 树 仍 是 首选 。 当 决策 树 写 成 下 -THEN 规则 集 时 ， 树 可 以 理解 ， 并且 可 以 被 具有 应 用 领 
域 知 识 的 专家 验证 。 
通常 ， 在 使 用 更 复杂 算法 之 前 ， 建 议 先 试验 决策 树 ， 并 将 它 的 准确 率 作 为 性 能 基准 。 树 
分 析 还 能 帮助 我 们 理解 重要 特征 ， 单 变量 树 还 可 以 用 于 自动 特征 提取 。 单 变量 树 的 另 一 个 重 
要 优点 是 它 可 以 使 用 数值 和 离散 特征 ， 而 不 需要 将 一 种 类 型 转换 成 另 一 种 。 
决策 树 是 非 参数 方法 ， 类 似 于 第 8 章 讨论 的 方法 ， 但 是 存在 一 些 不 同 之 处 : 
@ 每 个 树叶 对 应 于 一 个 “ 箱 ”， 只 不 过 箱 不 必 具 有 相同 的 大 小 (如 Parzen 窗口 ) 或 相同 个 
数 的 实例 (如 大 最 近邻 ) 。 
a 箱 的 划分 不 仅仅 根据 输入 空间 中 的 相似 度 ， 而 是 需要 通过 人 或 均 方 误 差 .使 用 输出 
信息 。 
n 决策 树 的 男 一 个 优点 是 仅 通 过 少量 比较 就 能 找到 树叶 ( 箱 )。 
”决策 树 一 旦 构造 就 不 需要 存放 所 有 的 训练 集 ， 而 只 需要 存放 树 的 结构 、 决 策 节点 的 
参数 和 树叶 节点 的 输出 值 。 与 需要 存储 所 有 训练 实例 的 基于 核 的 或 基于 近邻 的 方法 
相 比 ， 这 意味 决策 树 的 空间 复杂 度 也 非常 小 。 
使 用 决策 树 ， 一 个 类 不 必 具 有 所 有 实例 都 匹配 的 单个 描述 。 一 个 类 可 以 具有 多 个 可 能 的 
描述 ， 它 们 甚至 可 能 在 输入 空间 中 不 相交 。 
树 不 同 于 上 一 章 讨论 的 统计 模型 。 树 直接 地 对 分 离 类 实例 的 判别 式 编码 ， 而 不 必 携 带 许 
多 关于 这 些 实例 在 该 区 域 中 如 何 分 布 的 信息 。 决 策 树 是 基于 判别 式 的 (discriminant- based ) , 
而 统计 学 方法 是 基于 似 然 的 (likelihood-based) ， 它 们 在 使 用 贝 叶 斯 规则 和 计算 判别 式 之 前 显 
式 地 估计 p(x |C) 。 基 于 判别 式 的 方法 绕 过 类 密度 估计 ， 直 接 估计 判别 式 。 在 其 后 几 章 ， 
我 们 将 进一步 讨论 基于 判别 式 的 方法 。 


9.8 习题 


1. 将 基尼 指数 式 (9.5) 和 误 分 类 误差 式 (9.6) 推 广 到 KK 二 2 个 类 。 考 虑 损失 函数 ， 将 误 分 类 
误差 推广 到 风险 。 
2. 对 于 数值 属性 ， 我 们 可 以 不 用 二 元 划分 ， 而 通过 两 个 国 值 和 三 个 分 支 使 用 三 元 划分 
X Wiha Wna S Xi Wns Xj; E W mh 


修改 决策 树 归纳 方法 ， 学 习 两 个 阐 值 和 ww。 与 二 元 节点 相 比 ， 这 种 节点 的 优 缺 点 是 
什么 ? 
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3. 提出 一 种 带 回溯 的 树 归纳 算法 。 

4. 在 产生 单 变量 树 时 ， 具 有 个 可 能 值 的 离散 属性 可 以 用 个 071 哑 变 量 表示 ， 并 将 它们 
看 作 是 个 分 别 的 数值 属性 。 这 种 方法 的 优 缺 点 是 什么 ? 

5. 为 球形 树 式 (9. 21) 推 导 一 个 学 习 算法 。 将 它 推广 到 椭 球 形 树 。 

6. 在 回归 树 中 ， 我 们 提 到 在 树叶 节点 不 是 计算 均值 ， 而 是 可 以 做 线性 回归 拟 合 ， 并 使 树叶 
上 的 响应 依赖 于 输入 。 对 分 类 树 提 出 一 种 类 似 的 方法 。 

7. 为 回归 提出 一 种 规则 归纳 算法 。 

8. 在 回归 树 中 ， 如 何 消除 树叶 边界 的 不 连续 性 ? 

9. 假设 对 于 分 类 问题 我 们 已 经 有 一 棵 训练 后 的 决策 树 ， 那 么 除 训 练 集 之 外 ， 如 何在 构建 天 
最 近邻 分 类 时 使 用 它 ? 

10. 在 多 变量 树 中 ， 很 可 能 在 一 个 节点 上 不 需要 所 有 的 输入 变量 。 如 何 降低 节点 的 维度 ? 
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在 线性 判别 式 中 ， 我 们 假定 类 的 实例 是 线性 可 分 的 。 这 是 一 种 基于 判别 式 的 方法 ， 它 直 
接 估计 判别 式 的 参数 ， 而 不 必 先 估计 各 种 概率 。 

10.1 引言 

在 前 面 的 章节 中 ， 对 于 分 类 ， 我 们 定义 了 一 组 判别 式 函 数 g,(x), j=1, =, K, IFAM 
R g(x) = maxg, (x) ， 我 们 就 选择 Cio 

前 面 ， 在 我 们 讨论 分 类 方法 时 ， 我 们 首先 估计 先 验 概率 Pp( C;) 和 类 似 然 p(x | C:) ， 再 使 
用 贝 叶 斯 规则 计算 后 验 密度 。 然 后 ， 我 们 使 用 后 验 密 度 定义 判别 式 函 数 ， 例 如 

g:(x) = log p(C, |x) 

这 称 作 基于 似 然 的 分 类 (likelihood- based classification) ， 并 且 我 们 在 前 面 已 经 讨论 了 估 
计 类 似 然 P(x | C;) 的 参数 (第 5 章 ) 、 半 参数 (第 7 章 ) 和 非 参 数 (第 8 章 ) 方 法 。 

现在 ， 我 们 讨论 基于 判别 式 的 分 类 (discriminant-based classification) ， 这 里 我 们 绕 过 似 然 
或 后 验 概率 的 估计 ， 直 接 为 判别 式 假定 模型 。 基 于 判别 式 的 方法 对 类 之 间 的 判别 式 形式 进行 
假设 ， 而 不 对 密度 (例如 ， 是 否 是 高 斯 分 布 ) 、 输 入 是 否 相 关 等 知识 做 任何 假设 。 

我 们 为 判别 式 定 义 一 个 模型 

gi(x | ®,) 
显 式 地 用 参数 ©, 的 集合 参数 化 。 这 与 基于 似 然 的 模式 不 同 。 基 于 似 然 的 方法 在 定义 似 然 密 
度 时 具有 隐 式 参数 。 这 是 不 同 的 归纳 偏 傈 : 我 们 对 判别 式 的 形式 进行 假设 ， 而 不 是 对 密度 的 
形式 进行 假设 。 

学 习 是 优化 模型 参数 中 ， 最 大 化 给 定 类 标号 的 训练 集 上 的 分 类 准确 率 。 这 不 同 于 基于 
似 然 的 方法 。 基 于 似 然 的 方法 分 别 为 每 个 类 搜索 最 大 化 样本 似 然 的 参数 。 

在 基于 判别 式 的 方法 中 ， 我 们 并 不 关注 正确 地 估计 类 区 域 中 的 密度 ; 我 们 所 关注 的 是 正 
确 估计 类 区 域 之 间 的 边界 (boundary ) 。 基 于 判别 式 方法 的 创 导 者 (如 Cherkassky 和 Mulier 
1998 ) 指出 ， 估 计 类 密度 比 估 计 类 判别 式 更 困难 ， 并 且 为 解决 较 容 易 的 问题 而 解决 困难 的 问 
题 并 无 意义 。 当 然 ， 仅 当 判 别 式 可 以 用 简单 函数 近似 时 才 确 实 如 此 。 

本 章 ， 我 们 关注 最 简单 的 情况 ， 其 中 判别 式 是 x 的 线性 函数 : 


gi(xX|Wi,wo) = wx +wp = $ wxj + wo (10.1) 
je 


线性 判别 式 (linear discriminant) 经 常 使 用 ， 主 要 是 由 于 它 的 简单 性 ， 即 它 的 空间 和 时 间 
复杂 度 都 是 0(d) 。 线 性 模型 容易 理解 : 最 终 的 输出 是 若干 因素 的 加 权 和 。 权 重 的 大 小 显示 
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了 这 些 因素 的 重要 性 ， 而 它们 的 符号 显示 其 作用 的 正 负 。 大 部 分 函数 是 可 加 的 ， 因 为 输出 是 
若干 属性 作用 的 加 权 和 ， 其 中 权重 可 能 是 正 的 (加 强 ) 或 负 的 (抑制 )。 例 如 ， 当 一 位 顾客 申 
请 信用 卡 时 ， 金 融 机 构 计算 申请 者 的 信用 得 分 。 得 分 一 般 是 多 个 属性 作用 之 和 。 例 如 ， 年 薪 
的 作用 为 正 ( 较 高 的 年 薪 增 加 得 分 ) 。 

在 许多 应 用 中 ， 线 性 判别 式 相 当 准确 。 例 如 ， 我 们 知道 当 类 是 高 斯 的 ， 具 有 相同 的 协 方 
差 矩阵 时 ， 最 佳 的 判别 式 是 线性 的 。 然 而 ， 即 使 该 假设 不 成 立 ， 也 可 以 使 用 线性 判别 式 ， 并 
且 不 必 对 类 密度 做 任何 假设 就 能 计算 模型 参数 。 在 试用 更 复杂 的 模型 ， 确 保 附加 的 复杂 性 是 
合理 的 之 前 ,我 们 将 一 直 使 用 线性 判别 式 。 

正如 我 们 一 直 做 的 那样 ， 我 们 把 寻找 线性 判别 式 函 数 问题 归结 为 搜索 最 小 化 某 个 误差 函 
数 的 参数 值 问题 。 我 们 尤其 关注 优化 准则 函数 的 梯度 ( gradient) 方 法 。 


10.2 推广 线性 模型 


当 线 性 判别 式 不 够 灵活 时 ， 我 们 可 以 提高 复杂 度 ， 使 用 二 次 判别 式 ( quadratic discrimi- 

nant) 函数 
g(x | W,,w;, wg) = x Wx + wx + wy (10.2) 

但 是 ， 这 种 方法 的 复杂 度 是 0(d?) ， 并 且 我 们 还 会 遇 到 偏 傈 和 方差 的 两 难 选择 : 尽管 二 
次 模型 更 一 般 ， 但 是 它 需 要 更 大 的 训练 集 ， 并 且 在 小 样本 上 可 能 过 分 拟 合 。 

一 种 等 价 的 方法 是 通过 增加 高 阶 项 (higher- order term) ， 又 称 乘 积 项 (product term), X} 
输入 进行 预 处 理 。 例 如 ， 对 于 两 个 输入 和 x,， 我们 可 以 定义 新 变量 

Zi = My yZy = čz, = X z4 三 向 和 = Hy Ky 

HR z=[2,, 2, 23, 24, z] 为 输入 。 定 义 在 五 维 z 空间 上 的 线性 函数 对 应 二 维 x 空间 上 的 
非 线性 函数 。 替 代 在 原 空间 定义 非 线 性 函数 (判别 式 或 回归 )， 我 们 需要 做 的 是 定义 到 新 空 
间 的 、 合 适 的 非 线性 变换 ， 其 中 新 空间 上 的 函数 可 以 是 线性 的 。 

判别 式 可 以 表示 成 


g(x) = È wiil) (10.3) 

其 中 (x) ER BF (basis function) 。 例 子 如 下 

a sin(x) 

m exp( - (x, -m)°/c) 
exp( - || x -m ||7/c) 
log( x, ) 
1(x, >c) 
l(axi +bx, >c) 
其 中 m，a, b,c 是 标量 ，m 是 d AE, 4b 为 真 时 1(5) 返 回 1， 否 则 返回 0。 将 非 线 
性 函数 表示 成 非 线 性 基 函 数 的 线性 和 的 想法 并 非 新 想法 ， 并 且 最 初 称 作 势 函数 (potential 
function) ( Aizerman, Braverman 和 Rozonoer 1964 ) 。 多 层 感 知 器 ( 见 第 11 章 ) 7014% [ny SE PRA 
( 见 第 12 章 ) 具 有 进一步 的 优点 ， 可 以 在 学 习 时 调整 基 函 数 的 参数 。13 章 我 们 讨论 支持 向 量 
机 ， 它 使 用 由 这 种 基 函 数 构 造 的 核 孙 数 。 
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10.3 线性 判别 式 的 几何 意义 
10.3.1 两 类 问题 


让 我 们 从 最 简单 的 两 类 问题 开始 。 在 这 种 情况 下 ， 一 个 判别 式 函 数 就 足够 了 : 
g(x) = g(x) - g(x) 
= (WX +w) — (WIxX + wy) 
= (W, 一 mWa) + (wio — Wy) 
= w'x + wo 
并 且 如 果 g(x)>0， 我 们 选择 C, ， 否 则 选择 Co 
这 定义 了 一 个 超 平面 ， 其 中 w 是 权重 向 量 (weight vector), w, Æ 845 ( threshold), Jaq 4 
称 作 立 值 是 因为 规则 可 以 改写 为 ， 如 果 wxz>-xwo， 选 择 C,， 和 否则 选择 C,。 超 平面 将 输入 
空间 划分 成 两 个 半空 间 : C 的 决策 区 域 R, AC, 的 决策 区 域 RB,。R, 中 的 任何 x 都 在 超 平面 
的 正 (positive) 侧 ， 而 R 中 的 任何 x 都 在 超 平面 的 负 (negative) 侧 。 当 x 为 0 时 , g(x) =w 
并 且 如 果 我 们 有 wo 二 0， 则 原点 在 超 平面 的 正 侧 ， 如 果 wo 和 0， 则 原点 在 超 平面 的 负 侧 ， 而 
如 果 zw =0， 则 超 平面 经 过 原点 ( 见 图 10-1) 。 
取决 策 面 上 的 两 个 点 x Al x, CBU g(x.) =g) =0), W 
w'x, + Wo = WX, + wo 
w(x, -x,) =0 


并 且 我 们 看 到 w 是 超 平面 上 的 任意 向 量 的 法 线 。 让 我 们 将 x 改写 为 (Duda、Har 和 Stork 2001 ) 


212 
x =x,+r—~— ， 
"wl 213 


Aix, 是 x 到 超 平面 的 法 向 投影 ， 而 7 给 出 x 到 超 平面 的 距离 ， 如 果 x 在 负 侧 ， 则 它 为 负 ; 
如 果 z 在 正 侧 ， 则 它 为 正 ( 参 见 图 10-2) 。 计 算 g(x) 并 注意 g(x,) =0, 我们 有 

















了 
g (x) =w x +wx, +w, =0 = gtd =0 
g(x) <0 g(x) <0 g(x)>0 
C, lw, lwll 
X 
x os a x 
x lg (x) Mlwll 
x, x, 
图 10-1 在 二 维 情况 下 ， 线 性 判别 式 是 一 条 将 图 10-2 线性 判别 式 的 几何 解释 
两 个 类 的 实例 分 开 的 直线 
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_ g(x) 


Iw | (10. 4) 
于 是 ,我 们 看 到 超 平面 到 原点 的 距离 为 
ro = iw | (10. 5) 


这 样 wo 决定 超 平面 关于 原点 的 位 置 ， 而 w 决定 它 的 方向 。 
10.3.2 ”多 类 问题 


“EE K>2 个 类 时 ， 有 天 个 判别 式 函数 。 当 它们 都 是 线性 的 时 ， 我 们 有 
g(x |w, Wo) = WX +wp (10.6) 
稍 后 ， 我 们 将 讨论 学 习 ， 但 是 现在 我 们 假定 参数 w 和 wa 的 计算 使 得 对 于 训练 集中 的 所 有 x, 
g(x | w;, Wo) = [Z a (10.7) 
<0 否则 l 
使 用 这 种 判别 函数 相当 于 假设 所 有 的 类 都 是 线性 可 分 的 (linearly separable) ; 即 对 于 每 
个 类 C;， 存 在 一 个 超 平 面 H;， 使 得 所 有 的 x eC; MEE MIEN, Prax eC, jz i 都 在 它 
的 负 侧 (参见 图 10-3)。 a 
在 检验 时 ， 给 定 x, 理想 情况 下 应 当 只 有 一 个 
g(x)G=1, =, ) 大 于 0， 而 其 他 的 都 小 于 0。 但 是 ， 
并 非 总 是 如 此 : 这 些 超 平面 的 正 的 半 个 空间 可 能 重 秋 ， 
或 者 说 可 能 存在 所 有 的 g;(x) 都 小 于 0 的 案例 。 这 些 案 
例 可 以 看 作 拒 绝 (reject) 案例 ， 但 是 通常 的 方法 是 将 zx 
指派 到 具有 最 大 判别 式 值 的 类 : 
选择 C, wR g(x) = max; g; (x) (10.8) 
注意 ，|& (xz) |7] w: 是 从 输入 点 x 到 超 平面 的 距离 。 eon 
假定 w 具有 类 似 的 长 度 ， 这 将 该 点 指派 到 这 个 类 ，( 在 IS TMZ gc 全 人 
| eee ,将 C, 类 的 实例 与 其 他 类 
所 有 的 g(x) >0 中 ) 该 点 到 其 超 平面 最 远 。 这 称 作 线 性 ees oR 
| l i 实例 分 开 。 为 了 做 到 这 
分 类 器 (linear classifier) ， 并 且 它 将 特征 空间 几何 地 划分 


l 一 点 ， 类 应 当 是 线性 可 分 
成 个 是 决策 区 域 Ri( 参见 图 10-3) 。 的 。 虚 线 是 线性 分 类 器 的 


10.4 ZHE 归 约 后 的 边界 











如 果 类 不 是 线性 可 分 的 ， 一 种 方法 是 将 它 分 成 一 组 线性 问题 。 一 种 可 能 的 方法 是 和 逐 对 分 
离 (pairwise separation) (Duda, Hart 和 Stork 2001 ) 。 它 使 用 K(K -1)/2 个 线性 判别 式 gy(Cxz) ， 
每 对 不 同 的 类 一 个 (参见 图 10-4) : 
g(x | wj, wp) = Wix+ Wip 
参数 w;(j z 让 在 训练 时 计算 ,使 得 
>0 如 果 x e C, 
gix) =; <0 如 果 x eC ij=1,…,K 并 且 i zj (10.9) 
无 定义 ”否则 
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也 就 是 说 ， 如 果 eC, k xi, k #7, WE g (x) VIAN AE x’. 
在 检验 时 ， 如 果 对 任意 的 ] 4 i, BBA g)> .+ 
0， 则 我 们 选择 Co 
在 许多 情况 下 ， 可 能 对 于 任何 i， 这 一 条 件 都 
不 满足 ， 而 如 果 我 们 不 想 丢弃 这 种 情况 的 话 ， 我 
{TT LAFF ASR IAA HK, ERK FRR 
的 类 : 








a(x) = 2, 6i(*) (10. 10) 2 
即使 这 些 类 不 是 线性 可 分 的 ， 如 果 这 些 类 x 





是 逐 对 线性 可 分 的 (这 种 情况 可 能 性 更 大 ) ， 则 图 10-4 在 逐 对 线性 分 离 中 ， 每 一 对 类 有 一 个 
可 以 使 用 逐 对 分 离 ， 导 致 类 的 非 线性 分 离 ( 参 分 离 超 平面 。 一 个 输入 被 指派 到 C, 
见 图 10-4) 。 这 是 将 复杂 问题 ( 例如 ， 非 线性 问 它 应 当 在 Hy. Al 及, 的 正 侧 ( Hs 的 正 侧 
题 ) 分 解 成 一 系列 较 简 单 问 题 ( 例 如 ， 线 性 问 E Ha HRW); 我 们 不 考虑 Ha 的 
题 ) 的 又 一 种 方法 。 我 们 已 经 看 到 使 用 这 一 思 值 。 在 这 种 情况 下 ，C, 不 是 关于 其 
想 的 决策 树 ( 第 9 BE), 并且 在 第 17 章 ， 我 们 他 类 线性 可 分 的 ， 但 却 是 逐 对 线性 可 
还 将 看 到 组 合 多 个 模型 的 更 多 例子 ， 例 如 ， 校 分 的 

错 输出 码 和 混合 专家 模型 ， 其 中 线性 模型 数 小 

FOR’) 


10.5 参数 判别 式 的 进一步 讨论 


在 第 5 章 ， 我们 看 到 如 果 类 密度 p(x | C,) 是 高 斯 的 ， 并 且 具 有 共同 的 协 方差 矩阵 ， 则 判 
别 式 函 数 是 线性 的 


g(x) =wix + wo (10. 11) 
其 中 参数 可 以 用 下 式 解 析 地 计算 
Wa = Bp; 
wp =- TRAT + log P(C,) (10. 12) 


给 定数 据 集 ， 我 们 首先 计算 px; AE t, Rahi m, 和 S$ 插入 式 (10.12) ， 并 计 
算 线性 判别 式 的 参数 。 
让 我 们 再 次 考虑 两 类 的 特殊 情况 。 我 们 定义 y = PCC, |x), p(C, |x) =1-7y。 则 在 分 
类 时 ， 我 们 
y>0.5 


on A sn 
选择 C, ,如 果 is 否则 选择 C,。 
log 72, 70 a 
log y/ (1 -y) 称 作 分 对 数 (logit) 变换 或 y 的 对 数 几 率 (log odd)。 在 两 个 共享 相同 的 协 方 ”|207 
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FFE MEM IEA CRITE FP BULA EZR PENN : 
bot BEE wh low Py, POG x) 
met [yy = log] = PCC, |x} ~ = PCG, |x) 
a p(x | C,) P( C1) 
= log {x C) + log P(C) 
fips (2m) 2 | E | 'exp[ - (1/2) (x -p,) "SE (x -p,) ] die P(C,) 
= 8 On) oe [S | expl - (172) Cx -p,) "E (x pe)] P(C,) 
= w'x + wo (10. 13) 
其 中 
w = E(u, —f2) 
1 P P(C,) 
Wo = -7 +p)" E (u, -p,) + bE 5G.) (10. 14) 
分 对 数 的 逆 
lo _P(C |x) = w'x +w 
Py ope; lx) 3 
ER Mii (logistic) 函数 ， 又 称 S W (sigmoid) 函数 ( 见 图 10-5): 
ee E ee 1 
P(C, |x) = sigmoid(w'x + w) ie es (10. 15) 











图 10-5 EHUN ak S JE ) pm 


在 训练 阶段 ， 我 们 估计 m, ，maz ，S， 并 将 这 些 估计 插入 式 (10.14) ， 计 算 判 别 式 的 参 
数 。 在 检验 阶段 ， 给 定 x， 我 们 可 以 


1) 计算 g(x) =w +uo， 并 且 如 果 g(z)>0， 则 选择 C,; 或 者 

2) 计算 y=sigmoid(w' xz +zo)， 并 且 如 果 y>0.5， 则 选择 C, ， 因 为 sigmoid(0) =0.5。 

在 后 一 种 情况 下 ,5 形 昌 数 将 判别 式 的 值 变换 为 后 验 概 率 。 当 有 两 个 类 并 且 只 有 一 个 判 
别 式 时 ， 这 是 有 效 的 。 在 10.7 节 ， 我 们 将 讨论 如 何 对 二 2 估计 后 验 概 率 。 
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10.6 梯度 下 降 


在 基于 似 然 的 分 类 ， 参 数 是 p(x | C;) 和 P(C;) 的 有 效 统计 量 ， 而 我 们 使 用 的 估计 参数 的 
方法 是 最 大 化 似 然 。 在 基于 判别 式 的 方法 中 ， 参 数 是 判别 式 的 参数 ， 并 且 它 们 在 最 小 化 训练 
集 上 的 分 类 误差 是 最 优 的 。 当 w 表示 参数 集 ，E(w |X) 表 示 参 数 w 在 给 定 训练 集 X 上 的 误差 
时 ， 我 们 寻找 

w“ = argminE(w lx) 

在 许多 情况 下 ， 其 中 的 一 些 稍 后 我 们 将 看 到 ， 不 存在 解析 解 ， 而 我 们 需要 求助 于 迭代 优 
化 方法 。 最 常用 的 方法 是 梯度 下 降 ( gradient descent) 方 法 : 当 E(w) 是 变量 向 量 的 可 微 函 数 
时 ， 我 们 有 偏 导数 组 成 的 梯度 向 量 (gradient vector) 
dE ðE | aE)" 
dw,’ dw,” "dw, 

和 梯度 下 降 ( gradient descent) 过程 来 最 小 化 bE。 该 方法 从 随机 向 量 w 开始 ， 并 在 每 一 步 沿 与 
该 梯度 相反 的 方向 更 新 w 


V.E = 





Aw, =-9 yi (10. 16) 


w; = Wi + Aw; (10. 17) 
其 中 PRED K ( stepsize ) BY F 3 AF (learning factor) ， 决 定向 该 方向 移动 多 少 。 梯 度 上 升 
用 来 最 大 化 函数 ， 并 沿 着 梯度 的 方向 前 进 。 当 我 们 得 到 极 小 (或 极 大 ) 值 时 ， 导 数 等 于 0， 过 
程 终 止 。 这 表明 过 程 找 到 了 一 个 最 近 的 极 小 值 ， 可 能 是 局 部 极 小 值 。 除 非 函 数 只 有 一 个 极 小 
值 ， 否 则 不 能 保证 找到 全 局 极 小 。 使 用 较 好 的 7 值 也 是 至 关 重 要 的 。 如 果 太 小 ， 收 敛 可 能 
太 慢 ; 太 大 可 能 导致 摆动 甚至 发 散 。 
在 本 书 中 ， 我 们 使 用 的 梯度 方法 很 简单 ， 并 且 相 当 有 效 。 然 而 ， 我 们 要 记 住 ， 一 旦 确定 
了 合适 的 方法 和 误差 函数 ， 就 可 以 使 用 多 种 可 能 技术 中 的 一 种 来 优化 模型 参数 ， 以 便 最 小 化 
误差 函数 。 存 在 一 些 二 阶 方法 和 共 轿 梯度 ,收敛 更 快 ， 但 内 存 开销 和 计算 量 更 大 。 像 模拟 退 
火 和 遗传 算法 这 样 的 开销 更 大 的 方法 可 以 更 彻底 地 搜索 参数 空间 ， 而 不 太 依 赖 初始 点 的 
选择 。 


10.7 逻辑 斯 谤 判别 式 
10.7.1 两 类 问题 


在 逻辑 斯 说 判别 式 (logistic discrimination) 中 ， 我 们 不 是 对 类 条 件 密度 p(x |C), TX 
它们 的 比率 建 模 。 让 我 们 还 是 从 两 类 问题 开始 ， 并 假定 对 数 似 然 比 是 线性 的 : 
|C) 
p(x | C3) 
当 类 条 件 密度 为 正 态 时 (参见 式 (10. 13 ) ) ， 这 种 假设 确实 成 立 。 但 是 ， 逻 辑 斯 详 判 别 式 
具有 更 广泛 的 应 用 。 例 如 ,x 可 能 由 离散 属性 组 成 ， 或 者 可 能 是 连续 和 离散 属性 的 混合 。 
使 用 贝 叶 斯 规则 ， 我 们 有 





=w'x + we (10. 18) 
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a 
; _ P(C, |x) 
logit( P(C, |x)) = lee TPC, Ix) 
piel) ， P(C,) 
~ Baer |) EPG 
= wx + wo (10. 19) 
其 中 
P(C,) 
Wy = wo + log P(C) (10. 20) 
重新 整理 ， 我 们 又 得 到 S 形 函 数 
y =p(C,|x) = 1 (10. 21) 


1 + exp[ - (w'x + wo)] 
作为 P(C |z) 的 估计 。 
让 我 们 看 看 如 何 学 习 w 和 wy: 给 定 两 个 类 的 样本 X = |x, r), HAPUR x ec Ilr = 
1， 如 果 xeC, 则 二 =0。 我 们 假定 给 定 关 ,二 是 伯 努 利 分 布 ， 具 有 式 (10.21) 计 算 的 概率 y = 
(POG, |x"): 
r |x" ~ Bernoulli(y’) 
这 里 ， 我 们 看 到 了 基于 似 然 的 方法 与 基于 判别 式 的 方法 的 区 别 : 对 于 前 者 ， 我 们 对 
p(x | Ci) 建 模 ;， 对 于 后 者 ， 我 们 直接 对 |x 建 模 。 样 本 的 似 然 是 
Tw,wo IX) = TO) a -y (10. 22) 
我 们 知道 ， 当 我 们 有 一 个 需要 最 大 化 的 似 然 函 数 时 ， 我 们 总 是 将 它 转换 成 需要 最 小 化 的 
误差 函数 EE= -log 1, FF AFER TM, RITA A (cross- entropy) : 
E(w ,wo |X) =- Srlogy + (1 -r')log(1 - y‘) (10. 23) 
REHE E F EEREN, EATER IR BOT BR. WMR y = sigmoid 
(a) =1/(1 +exp( -a))， 则 它 的 导数 为 





d = y(1 -y) 
并 且 我 们 得 到 如 下 更 新 方程 : 
== ðE _ f l-r 1 Sa t 
Aw; = FAE mara Ae x); 
= ny, (r = yx J = ;sd 
Am = 一作 = 0d (ry) (10. 24) 


最 好 用 接近 于 0 的 随机 值 初始 化 wj; 通常 ,它们 从 区 间 [ -0.01，0.01] 中 均匀 地 抽 
取 。 这 样 做 的 理由 是 ， 如 果 w, 数值 很 大 ， 则 加 权 和 可 能 也 很 大 并 且 S 形 函 数 可 能 饱和 。 
从 图 10-5 我 们 看 到 ， 如 果 初 始 权 重 接 近 于 0， 则 和 在 区 域 中 间 ， 那 里 导数 非 零 ， 可 以 进行 
更 新 。 如 果 加 权 和 很 大 (小 于 -5 或 大 于 +5)， 则 S 形 函数 的 导数 几乎 为 0， 权 值 将 不 会 
更 新 。 
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伪 代 码 在 图 10-6 中 。 我 们 看 图 10-7 中 的 例子 ， 其 中 输入 是 一 维 的。 直线 wx + wo AE 
的 S 形 函数 之 后 的 值 都 作为 学 习 和 迭代 次 数 的 函数 显示 。 我 们 看 到 ， 为 了 得 到 输出 0 和 1，5S 
形 函 数 逐 渐 适 应 ， 这 通过 增 大 w 的 数值 实现 。 


For j=0, +, d 
w,+-rand( —0.01, 0.01) 
Repeat 
Forj=0, =, d 
Aw;+—0 
Fort=1, =, N 
o0 
Forj=0, *…, d 


t 
-—o+Ww:x: 
oo wxj 





y+sigmoid(o) 
For j=0, =, d 
Aw;+-Aw, + (r' -y) x} 
For j=0, +, d 
ww; + nAw; 


Until 收敛 











图 10-6 PAPA TAR. Ah, KEE FRERE E its A a PT PK IF wo, 
我 们 假定 存在 一 个 附加 的 输入 x。， 它 总 为 +1: xo = +1, Vt 


3 





0 


P(C Ix) 














图 10-7 对 于 一 元 两 类 问题 (用 “。” 和 * x "显示 ) ， 样 本 上 10 WK. 100 次 
和 1 000 次 迭代 之 后 ， 直 线 wx + wy 和 S 形 函 数 输出 的 演变 
一 旦 训练 完成 并 且 我 们 得 到 了 最 终 的 w 和 zw， 在 检验 阶段 ， 给 定 x， 我 们 计算 y = sig- 
moid(w'x+wo)， 并 且 如 果 y >0.5 则 选择 C, BWA C,。 这 意味 ,为 了 最 小 化 误 分 类 
数 ， 我 们 不 需要 学 习 到 y 是 0 或 1， 而 只 需要 学 习 到 y 小 于 或 大 于 0.5。 如 果 超 过 该 点 后 我 
们 还 继续 学 习 ， 互 炉 将 继续 降低 ( | w, | 将 继续 增加 ， 硬 化 S 形 函 数 ) ， 但 是 误 分 类 数 将 不 会 
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减少 。 通 常 ， 我 们 一 直 训 练 ， 直 到 误 分 类 数 不 再 减少 (如 果 类 是 线性 可 分 的 ， 它 将 为 0) 。 实 
际 上 ， 在 达到 零 训 练 误差 之 前 提前 停止 是 一 种 正则 化 形式 。 因 为 以 权重 几乎 为 0 开始 ， 并 且 
它们 随 着 训练 继续 而 远离 0， 所 以 提前 停止 对 应 于 具有 更 多 接近 于 零 权 重 而 实际 上 参数 更 少 
的 模型 。 

注意 ， 尽 管 为 了 导出 判别 式 ， 我 们 假定 类 密度 的 对 数 比 是 线性 的 ， 但 是 我 们 直接 估计 后 
验 概率 ， 而 不 显 式 地 估计 p(x |C) PCC,) . 














10.7.2 多 类 问题 
现在 ， 让 我 们 推广 到 天 >2 个 类 : 我 们 取 其 中 一 个 类 ， 例 如 C;， 作 为 引述 类 并 假定 
p(x|C) i 
log x iG) = WX + wn (10. 25) 
于 是 ,我们 有 
P(C, |x) 和 
P(C; |x) = exp[ wix + wo | (10. 26) 
其 中 ws =w + log P(C;)/P(C,) 。 
我 们 看 到 
x P(G |x) _1-P(C|x) _ E F 
Aralo Pla ~ Aerie teal 
=> P(Cx|x) = a (10. 27) 
1+ > exp[ wix + Wy | 
并 且 还 有 
P(C; |x) T 
P(C, |x) = exp| wix +wp] 


T 
X +w, 
=» Pies |e ei ei. | CR 


1+ >, exp[ wix + wy | 
j=l 


为 了 一 致 地 处 理 所 有 的 类 ， 我 们 记 作 





wix + 
je hie ay a eee (10. 29) 


Èi exp[ w; x + Wy | 
这 称 为 软 最 大 (softmax ) 函数 (Bridle 1990 ) 。 如 果 一 个 类 的 加 权 和 明显 大 于 其 他 类 的 加 权 
和 ， 则 通过 取 指 数 和 规范 化 推进 之 后 ， 它 对 应 的 y; 将 接近 于 1， 而 其 他 的 将 接近 于 0。 这 
样 ， 除 了 可 导 之 外 ， 它 就 像 取 最 大 ， 因 此 得 名 软 最 大 。 软 最 大 还 保证 Ey = 1。 
让 我 们 看 如 何 学 习 参 数 : 在 天 >2 个 类 这 种 情况 下 ， 每 个 样本 点 是 一 次 多 项 试验 取 值 ， 
BIr | xi ~ Multe (1, y'), HP y; = PCC; |x')。 样 本 的 似 然 为 
I({w,,wo}, |X) = TIT OD” (10. 30) 
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E({w,,wal, |X) =- > È, rilog y; (10. 31) 
我 们 再 次 使 用 梯度 下 降 。 如 果 y; = exp( a;)/Z,exp(a;) ， 则 我 们 有 
a = yi(6; — 7;) (10. 32) 
a; 


其 中 5; 是 Kronecker 6, MUR i=j CH1, WRI 4 J ENO D3), Be Bri =1， 对 于 j= 
1，…, 天 ， 我 们 有 如 下 更 新 方程 


Aw = 之 之 sy, = 
= nO, EG -I 
nZ [Zn] 
= 9d, (4 - 94)" 
Awo = 9 >) (7 - 9) (10. 33) 
注意 ， 由 于 软 最 大 中 的 规范 化 ， m, Hl yp ALS x! € C, 的 影响 ， 而 且 还 受 x' eC, (i 4 j) 
的 影响 。 更 新 判别 式 使 得 取 软 最 大 之 后 正确 的 类 具有 最 大 的 加 权 和 ， 而 其 他 类 的 加 权 和 尽 可 


能 小 。 伪 代码 在 图 10-8 中 给 出 。 对 于 具有 三 个 类 的 二 维 样本 ， 轮 廓 线 在 图 10-9 中 给 出 ， 而 
判别 式 和 后 验 概率 在 图 10-10 中 。 





Fori=1, ++, K, Forj=0, +, d, wj+-rand( -0.01, 0.01) 
Repeat 
Fori=1, ++, K, Forj=0, =, d, Aw;+0 
Fort=1, =, N 
Fori=1, =, K 
o; +0 
Forj=0, ---, d 
0;4—0; + wx; 


Fori=1l, =, K 
yis—exp(0;)/ 之 exp(o, ) 
Fori=1, =, K 
Forj=0, =, d 
Aw, Aw, + (ri -yi) x 
Fori=1, =, K 
Forj=0, =, d 
wew; + Aw, 


Until 收敛 











图 10-8 ”对 于 天 >2 个 类 ， 实 现 梯度 下 降 的 逻辑 斯 详 判 别 式 算 法 。 
为 了 一 般 起 见 ， 对 于 任意 上 ， 我 们 取 xo =1 
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图 10-9 对 于 具有 三 个 类 的 二 维 问题 ， 人 逻辑 斯 说 判别 式 发 现 的 解 。 细 
线 是 g(x) =0， 而 粗 线 是 取 极 大 的 线性 分 类 器 得 到 的 边界 





图 10-10 对 于 图 10-9 中 的 相同 样本 ， 线 性 判别 式 ( 上 ) 和 软 最 大 后 的 后 验 概率 (下 ) 
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在 检验 阶段 ， 我 们 计算 所 有 的 y，k=1，…，K， 并 且 如 果 y; = max, yp, WE Co R 
们 仍然 不 必 为 尽 可 能 地 极 小 化 互 科 而 一 直 训 练 ; 我 们 只 需要 训练 到 正确 的 类 具有 最 大 的 加 权 
和 ， 并 通过 检查 误 分 类 数 ， 提 前 停止 训练 。 

当 数 据 是 正 态 分 布 时 ， 逻 辑 斯 详 判 别 式 与 参数 的 、 基 于 正 态 的 线性 判别 式 具 有 大 致 相当 
的 错误 率 ( McLachlan 1992 ) 。 当 类 条 件 密度 非 正 态 时 ， 或 当 它们 非 单 峰 时 ， 只 要 类 是 线性 可 
分 的 ， 逻 辑 斯 详 判 别 式 仍然 可 以 使 用 。 

当然 ， 类 条 件 密度 的 比 不 限于 是 线性 的 (Anderson 1982; McLachlan 1992 ) 。 假 定 一 个 二 
次 判别 式 ， 我 们 有 





= x'W.x+wix +wp (10. 34) 


对 应 并 推广 具有 不 同 协 方差 矩阵 、 满 足 多 元 正 态 类 条 件 分 布 的 参数 判别 式 。 当 4 很 大 时 ， 正 
如 我 们 可 以 化 简 ( 正规 化 ), 一 样 ， 我 们 可 以 通过 只 考虑 它 的 前 面 的 本 征 向 量 ， 对 W 做 同样 
的 事 。 

正如 10. 2 节 所 讨论 的 ， 可 以 用 基本 变量 的 任意 指定 函数 作为 x- 变 量 。 例 如 ， 我们 可 以 
把 判别 式 写 成 非 线 性 基 函 数 的 线性 和 





= w(x) + wy (10. 35) 


其 中 ，g(*) 是 基 函 数 ， 可 以 看 作 变 换 后 的 变量 。 用 神经 网 络 的 术语 ， 这 称 作 多 层 感 知 器 
(multilayer perception) (第 11 章 ) ， 而 S 形 函 数 是 最 常用 的 基 范 数 。 当 使 用 高 斯 基 函 数 时 ， 
这 种 模型 称 作 径 向 基 函 数 (radial basis function) (第 12 章 ) 。 我 们 甚至 可 以 使 用 完全 非 参数 的 
方法 ， 如 Parzen 窗口 (第 8 FH). 


10.8 回归 判别 式 


对 于 回归 ， 概 率 模型 是 
a (10. 36) 
其 中 e~N(0, °), Were lO, 1|, 使 用 S 形 函数 ， 则 y 可 能 限于 落 在 该 区 间 。 假 定 线 
性 模型 和 两 个 类 ， 我 们 有 
1 








y = sigmoid(w'x' + w) = = (10. 37) 
1 + exp[ - (wx' + wy) | 
(RE r|x~N(y, co”)， 则 回归 中 的 样本 似 然 为 
l = -y')? 
1(w,wo |X) = II zzl- 3 ] (10.38) 
最 大 化 该 对 数 似 然 是 最 小 化 误差 的 平方 和 : 
E(w,w IX) = FE -yy (10. 39) 
使 用 梯度 下 降 ， 我 们 得 到 
Aw = n> (r-y')y¥ (1 -y')x' 
Aw, =n} (rr-y)y(l -7y) (10. 40) 
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“ARE K>2 个 类 时 ， 也 可 以 使 用 这 种 方法 。 概 率 模型 是 
r=yte (10. 41) 
HP eg ~Ni(0, oly) 。 假 定 每 个 类 一 个 线性 模型 RIA 
1 


y = sigmoid(w;x' + wy) = Ireni- te Fu] (10. 42) 
于 是 ， 样 本 的 似 然 为 
1 六 yt 2 
LC {wi woli |X) = I Gowns ([-1 at] (10. 43 ) 
Emil WO => ry do.a) 
对 于 i=1， ea K, 更 新 方程 为 
Aw, = n> (ri -yiyi -yx 
Aw, =} (r; -yy -7y) (10. 45) 


注意 ， 在 这 样 做 时 ， 我 们 并 未 使 用 y; 中 的 一 个 为 1， 其 余 为 0, 或 2 y; =1 的 信息 。 由 


于 输出 是 类 后 验 概 率 估计 ， 式 (10. 29 ) 的 软 最 大 函数 使 得 我 们 可 以 纳入 这 些 附 加 信息 。 在 
天 之 2 的 情况 下 ， 使 用 S 形 函 数 ， 我 们 像 对 待 独立 函数 一 样 对 待 y;。 

还 要 注意 ， 对 于 给 定 的 类 ， 如 果 我 们 使 用 回归 方法 ， 则 更 新 将 进行 到 正确 的 输出 为 1， 
其 余 为 0 才 停 止 。 事 实 上 ， 这 是 不 必要 的 ， 因 为 在 检验 时 ， 我 们 只 是 选择 最 大 的 。 训 练 到 正 
确 的 输出 大 于 其 他 输出 就 足够 了 ， 这 正 是 软 最 大 函数 所 做 的 。 

因此 ， 当 类 不 是 互 斥 的 和 穷 举 的 时 ， 也 就 是 说 ， 对 于 一 个 x ， 所 有 的 产 可 能 都 为 0， 即 
x 不 属于 任何 一 个 类 ; 或 者 当 类 重 礁 时 ， 可 能 多 个 产 为 1 时， 这 种 具有 多 个 S 形 函数 的 方法 
更 可 取 。 


10.9 注释 


由 于 其 简单 性 ， 线 性 判别 分 析 是 模式 识别 研究 最 多 的 课题 ( Duda, Hart 和 Stork 2001 ; 
McLachlan 1992 ) 。 我 们 在 第 4 章 讨论 了 具有 公共 协 方差 矩阵 的 高 斯 分 布 情况 ， 在 第 6 章 讨论 
了 费 硕 尔 线性 判别 式 ， 并 在 本 章 讨 论 了 逻辑 斯 详 判 别 式 。 在 第 11 章 ， 我 们 将 讨论 感知 器 ， 
它 是 线性 判别 式 的 神经 网 络 实现 。 第 13 章 我 们 将 讨论 支持 向 量 机 ， 这 是 另 一 种 类 型 的 线性 
判别 式 。 

逻辑 斯 诺 判 别 式 的 更 详细 讨论 在 Anderson 1982 和 McLachlan 1992 H, ri (S 形 ) 
函数 是 分 对 数 的 着， 在 伯 努 利 抽样 中 称 作 规 范 链 ( canonical link ) 。 软 最 大 是 对 多 元 正 态 抽 样 
的 拓 广 。 关 于 广义 线性 模型 ( generalized linear model ) 的 更 多 信息 在 McCullogh 和 Nelder 
1989 中 。 

使 用 非 线性 基 函 数 推广 线性 模型 是 一 种 历史 悠久 的 想法 。 我 们 将 讨论 多 层 感 知 器 (参见 
第 11 章 ) 和 径 向 基 函 数 (参见 第 12 章 ) ， 其 中 基 函 数 的 参数 也 可 以 在 学 习 判 别 式 时 由 数据 学 
习 。 支 持 向 量 机 (参见 第 13 章 ) 使 用 由 这 些 基 函数 形成 的 核 函 数 。 
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10.10 Sm 

L OP Pa BET ERA, FRE CEES : 
a. sin( x, ) b. exp( 一 (xi -a)’/c) c. exp( — || x-a@|| ?2/c) [230] 
d. log( x, ) e. I(x >c) f. 1(ax, +bx, >c) 


2. 对 于 图 10-2 的 二 维 情况 ， 证 明 式 (10.4) 和 式 (10.5)。 

. 证 明 软 最 大 y = exp(a,)/Z,exp(a,) MS BE ay,/aa, =y,(6, -y;), PWR i=j 则 6; 为 
1, Api) 6,40. 

. 令 人 =2， 证 明 用 两 个 软 最 大 输出 等 于 使 用 一 个 S 形 输出 。 

. 在 式 (10. 34) 中 ， 我 们 如何 学 习 Wi? 

. 当 像 式 (10. 34) 中 那样 使 用 二 次 (或 更 高 阶 ) 判 别 式 时 ， 如 何 保持 方差 受 控 ? 

. 在 梯度 下 降 时 ， 对 所 有 的 % 使 用 单个 7 意味 什么 ? 

. 在 单 变 量 情况 下 ， 对 于 如 图 10.7 中 的 分 类 ，w 和 wo 对 应 于 什么 ? 

. 假设 对 于 单 变量 *， x e (2,4) RFC, 而 x< 2 或 x > 4 属于 C,。 如 何 使 用 线性 判别 式 
把 这 两 个 类 分 离 ? 
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多 层 感知 器 是 一 种 人 工 神经 网 络 结构 ， 是 非 参 数 估计 器 ， 可 以 用 于 分 类 和 回归 。 我 们 讨 
论 为 各 种 应 用 训练 多 层 感 知 器 的 后 向 传播 算法 。 


人 工 神经 网 络 模型 ， 其 中 之 一 是 我 们 本 章 讨 论 的 多 层 感知 器 ， 其 灵感 源 于 模拟 人 脑 。 旨 
在 理解 人 脑 功能 ， 并 朝 着 这 一 目标 努力 的 认 知 科学 家 和 神经 学 家 (Posner 1989 ) 构建 了 人 脑 
的 神经 网 络 模型 ， 并 开展 了 模拟 研究 。 

然而 ， 在 工程 上 ， 我 们 的 目标 不 是 理解 人 脑 的 本 质 ， 而 是 构建 有 用 的 机 器 。 我 们 对 人 工 
神经 网 络 (artificial neural networks) 感 兴趣 ， 因 为 我 们 相信 它们 可 能 帮助 我 们 建立 更 好 的 计算 
机 系统 。 人 脑 是 一 种 信息 处 理 装 置 ， 具 有 非凡 的 能 力 并 且 在 许多 领域 ， 例 如 ， 视 觉 、 语 音 识 
别 和 学 习 方面 ， 都 超过 了 当前 的 工程 产品 。 如 果 在 机 器 上 实现 ， 这 些 应 用 显然 都 具有 经 济 效 
益 。 如 果 我 们 能 够 理解 人 脑 如 何 实现 这 些 功能 ， 我 们 就 可 以 用 形式 算法 定义 这 些 任 务 的 解 ， 
并 且 在 计算 机 上 实现 它们 。 

人 脑 与 计算 机 很 不 相同 。 计 算 机 通常 只 有 一 个 处 理 器 ， 而 人 脑 却 包含 大 量 (10 个) 并 行 
操作 的 处 理 单元 ， 称 作 神 经 元 (neuron) 。 尽 管 处 理 细 节 尚 不 清楚 ， 但 是 人 们 相信 这 些 处 理 单 
元 比 计算 机 中 的 处 理 器 简单 得 多 ， 并 且慢 得 多 。 使 得 人 脑 不 同 寻常 并 且 被 认为 提供 了 其 计算 
能 力 的 是 连通 性 : 人 脑 的 神经 元 具有 连接 ， 称 作 突 触 (synapse) ， 连 接 到 大 约 10 个 其 他 神 
经 元 ， 所 有 神经 元 都 并 行 地 操作 。 在 计算 机 中 ， 处 理 器 是 主动 的 ， 而 存储 是 分 散 和 被 动 的 ， 
但 是 我 们 认为 在 人 脑 中 ， 处 理 和 存储 都 在 网 络 上 分 布 ; 处 理由 神经 元 来 做 ， 而 记忆 在 神经 元 
之 间 的 突 触 中 。 


11. 1.1 理解 人 脑 


根据 Marr( 1982) ， 理 解 一 个 信息 处 理 系 统 具 有 三 个 层面 ， 称 作 分 析 层 面 (levels of 
analysis ) : 

1) 计算 理论 (computational theory ) 对 应 计算 目标 和 任务 的 抽象 定义 。 

2) 表示 和 算法 (representation and algorithm) 是 关于 输入 和 输出 如 何 表示 和 从 输入 到 输出 
变换 的 算法 说 明 。 

3) 硬件 实现 (hardware implementation ) 是 系统 的 实际 物理 实现 。 

一 个 例子 是 排序 : 计算 理论 是 对 给 定 的 元 素 集 合 排序 。 表 示 可 以 使 用 整数 ， 而 算法 可 以 
是 Quicksort( 快速 排序 ) 。 编 译 后 ， 特 定 处 理 机 对 二 进 制 表示 的 整数 排序 的 可 执行 代码 是 一 
种 硬件 实现 。 

基本 思想 是 ， 对 于 相同 的 计算 理论 ， 可 以 有 多 种 表示 和 在 相应 表示 上 操控 符号 的 算法 。 
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类 似 地 ， 对 于 给 定 的 表示 和 算法 ， 可 以 有 多 种 硬件 实现 。 我 们 可 以 使 用 众多 排序 算法 中 的 一 
种 ， 并 且 即 使 相同 的 算法 也 可 以 在 使 用 不 同 处 理 器 的 计算 机 上 编译 ， 导 致 不 同 的 硬件 实现 。 

考虑 另 一 个 例子 ,“6”、“VI 和 "110" 是 数字 6 的 不 同 表示 。 加 法 的 不 同 算法 依赖 于 所 
使 用 的 表示 。 数 字 计 算 机 使 用 二 进 制 表示 ， 并 具有 这 种 表示 的 加 法 电路 ， 这 是 一 种 特殊 的 便 
件 实现 。 在 算盘 上 ， 数 用 不 同 的 方法 表示 ， 并 且 加 法 对 应 不 同 的 指令 集 ， 这 是 另 一 种 硬件 实 
现 。 当 我 们 在 大 脑 中 将 两 个 数 相 加 时 ， 我 们 使 用 另 一 种 表示 和 一 种 适合 于 这 种 表示 的 算法 ， 
这 由 神经 元 实现 。 但 是 ， 所 有 不 同 的 硬件 实现 (例如 ,我 们 、 算 盘 和 数字 计算 机 ) 都 实现 了 
相同 的 计算 理论 一 一 加 法 。 

经 典 的 例子 是 自然 和 人 工 的 飞行 器 之 间 的 不 同 : 麻 省 拍打 它 的 双翼 ; 商用 飞机 并 不 拍打 
机 村， 而 是 使 用 喷气 引擎 。 麻 省 和 飞机 是 两 种 硬件 实现 ， 为 不 同 的 目的 而 构建 ， 满 足 不同 的 
约束 。 但 是 它们 都 实现 了 相同 的 理论 一 一 空气 动力 学 。 

人 脑 是 学 习 或 模式 识别 的 一 种 硬件 实现 。 如 果 从 这 种 特定 的 实现 ， 我 们 可 以 做 逆 工 程 ， 
提取 人 脑 使 用 的 表示 和 算法 ， 并 且 如 果 我 们 能 够 从 中 获得 计算 理论 ， 则 我 们 可 以 使 用 男 一 种 
表示 和 算法 ， 然 后 得 到 更 适合 我 们 的 含义 和 约束 的 硬件 实现 。 我 们 希望 我 们 的 实现 价格 低 
廉 、 快 速 ， 并 且 更 准确 。 

当初 构建 飞行 器 时 ， 直 到 发 现 空气 动力 学 之 前 ， 我 们 一 直 在 尝试 构建 看 上 去 非常 像 鸟 的 
飞行 器 。 与 此 相同 ， 直 到 我 们 发 现 智 能 的 计算 理论 之 前 ， 早 期 尝试 构建 具有 大 脑 能 力 的 结构 
看 上 去 将 很 像 大 脑 ， 是 具有 大 量 处 理 单元 的 网 络 。 因 此 可 以 说 ， 就 理解 大 脑 而 言 ， 当 我 们 研 
究 人 工 神 经 网 络 时 ， 我 们 处 于 表示 和 算法 层面 。 

正如 羽毛 与 飞行 不 相关 一 样 ， 将 来 我 们 可 能 发 现 神经 元 和 突 触 与 智能 并 无 关系 。 但 是 ， 
在 此 之 前 ， 我 们 对 理解 大 脑 机 能 感 兴趣 还 有 另 一 个 原因 ， 这 种 原因 与 并 行 处 理 有 关 。 








11.1.2 神经 网 络 作为 并 行 处 理 的 典范 


自 20 世纪 80 年 代 以 来 ， 具 有 数 以 千 计 处 理 器 的 计算 机 系统 已 经 商品 化 。 然 而 ， 用 于 这 
种 并 行 结构 的 软件 并 不 像 硬件 发 展 这 么 快 。 原 因 是 到 目前 为 止 我 们 的 计算 理论 几乎 都 基于 串 
行 的 、 单 处 理 器 机 器 。 我 们 不 能 有 效 地 使 用 并 行 机 ， 因 为 我 们 不 能 有 效 地 对 它们 编程 。 

主要 有 两 种 并 行 处 理 ( parallel processing) 范 型 : 在 单 指令 多 数据 (SIMD) 机 ， 所 有 的 处 理 
器 都 执行 相同 的 指令 ， 但 是 在 不 同 的 数据 上 执行 。 在 多 指令 多 数据 (MIMD ) 机 ， 不 同 的 处 理 
器 可 以 在 不 同 的 数据 上 执行 不 同 的 指令 。SIMD 机 容易 编程 ， 因 为 只 需要 写 一 个 程序 。 然 而 ， 
问题 很 少 具有 这 种 有 规律 的 结构 以 能 在 SIMD 机 上 并 行 地 执行 。MIMD 机 更 一 般 ， 但 是 为 每 
个 处 理 器 编写 单独 的 程序 并 不 是 一 件 容 易 的 任务 ; 其 他 问题 涉及 同步 、 处 理 器 之 间 的 数据 传 
送 等 。SIMD 机 也 比较 容易 构建 ， 并 且 如 果 它 们 都 是 SIMD 机 ， 则 可 以 构建 具有 更 多 处 理 髓 
的 机 器 。 在 MIMD 机 中 ,处理 器 更 加 复杂 ， 并 且 还 要 为 处 理 器 任意 地 交换 数据 构建 更 复杂 的 
通信 网 络 。 

现在 ， 假 设 我 们 可 以 有 机 器 ， 其 中 处 理 器 比 SIMD 处 理 器 复杂 一 点 ， 但 没有 MIMD 处 理 
器 复杂 。 假 定 我 们 有 一 些 简 单 处 理 器 ， 具 有 少量 局 部 存储 器 ， 可 以 存放 一 些 参 数 。 每 个 处 理 
器 实现 一 个 固定 的 函数 ， 并 且 执 行 与 SIMD 处 理 器 一 样 的 指令 ; 但 是 通过 将 不 同 的 值 装 入 局 
部 存储 器 ， 它 们 可 以 做 不 同 的 事情 ， 并 且 整 个 操作 可 以 在 这 些 处 理 器 上 分 布 执行 。 这 样 ， 我 
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们 将 有 可 以 称 作 神经 指令 多 数据 (NIMD ) 机 ， 其 中 每 个 处 理 器 对 应 一 个 神经 元 ， 局 部 参数 对 
应 它 的 突 触 权重 ， 而 整个 结构 是 一 个 神经 网 络 。 如 果 每 个 处 理 器 中 实现 的 功能 很 简单 ， 并 且 
局 部 存储 器 很 小 ， 则 许多 这 样 的 处 理 器 可 以 放 在 一 个 芯片 中 。 

现在 的 问题 是 将 任务 分 布 到 这 种 处 理 器 的 网 络 中 和 确定 局 部 参数 的 值 。 这 是 学 习 进 行 的 地 
方 : 如 果 这 样 的 机 器 可 以 从 实例 学 习 ， 则 我 们 自己 不 需要 为 这 种 机 器 编制 程序 和 决定 参数 值 。 

因此 ， 人 工 神经 网 络 是 一 种 我 们 可 以 使 用 当前 技术 构建 的 、 利 用 并 行 硬件 的 方法 一 一 多 
亏 了 学 习 一 一 它们 不 需要 编程 。 因 此 ， 我 们 也 不 必 费 神 为 它们 编程 。 

KH, 我们 讨论 这 种 结构 和 如 何 训练 它们 。 记 住 ， 人 工 神经 网 络 操 作 是 一 种 数学 函数 ， 
它们 可 以 在 串 行 计算 机 上 实现 ， 并 且 训 练 网 络 与 我 们 在 前 面 的 章节 中 讨论 的 统计 学 技术 并 无 
太 大 差别 。 仅 当 我 们 有 并 行 硬件 ， 并 且 仅 当 网 络 太 大 ， 不 能 在 串 行 机 上 快速 模拟 时 ， 考 虑 这 
些 操作 在 简单 处 理 单元 的 网 络 上 进行 才 是 有 意义 的 。 


11.2 感知 器 


感知 器 (perceptron) 是 基本 处 理 元 素 。 它 具有 输入 ， 其 输入 可 能 来 自 环 境 或 者 可 以 是 其 他 
感知 器 的 输出 。 与 每 个 输入 x e RR(j =1，…，d) 相 关联 的 是 一 个 连接 权重 (connection weight) 
或 突 触 权重 (synaptic weight)w, eR, minh y 在 最 简单 情况 下 是 输入 的 加 权 和 (参见 图 11-1): 





y= > wax + wo (11.1) 
j=l 





X=+l x; x, Xa 


图 11-1 简单 感知 器 ,5% =1，…，d) 是 输入 单元 ，xo 是 偏 倚 单 元 ， HE 
总 是 为 1。y 是 输出 单元 。z 是 从 % 到 输出 的 有 向 连接 的 权重 


其 中 wo 是 截 距 值 ， 它 使 模型 更 一 般 ; 通常 把 它 作 为 一 个 来 自 附 加 的 偏 倚 单 元 (bias unit) x, 
的 权重 ， 而 xo 总 是 为 +1。 我 们 可 以 把 感知 器 的 输出 写成 点 积 
y = wx (11.2) 

其 中 w=[wo, w, =, w,]', x=[1, x, +, xy] 是 增 广 向 量 (augmented vector), G8 
偏 倚 权 重 和 输入 。 

在 检验 时 ， 给 定 权重 w， 对 于 输入 x 我们 计算 输出 y。 为 了 实现 给 定 的 任务 ,我 们 需要 
学 习 系 统 的 参数 权重 w， 使 得 我 们 可 以 产生 给 定 输入 的 正确 输出 。 

当 d=1 并 且 xx 通 过 输入 单元 由 环境 馈 人 时 ， 我们 有 
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y = wx + wo 
这 是 以 w 为 斜率 、zw 为 截 距 的 直线 方程 。 这 样 ， 这 种 具有 一 个 输入 和 一 个 输出 的 感知 器 可 
以 用 来 实现 线性 拟 合 。 使 用 多 个 输入 ， 直 线 变 成 了 ( 超 ) 平 面 ， 而 具有 多 个 输入 的 感知 器 可 
以 实现 多 元 线性 拟 合 。 给 定 样 本 ， 通 过 回归 可 以 找 出 参数 wj( 见 5.8 节 ) 。 
(11. 1) 式 定义 的 感知 器 定义 了 一 个 超 平面 ， 因 此 可 以 用 来 将 输入 空间 划分 成 两 部 分 : y 值 
为 正 的 半 个 空间 和 y 值 为 负 的 半 个 空间 (参见 第 10 章 )。 通 过 用 它 实现 线性 判别 函数 ， 检 查 输 
出 的 符号 ， 感 知 器 可 以 将 两 个 类 分 开 。 如 果 我 们 定义 (+) Ay BAA 4 (threshold function) 
1 如 果 a 二 0 
s(a) = F mi (11.3) 
则 如 果 s(w"x) > 0 我 们 可 以 选择 C, ， 否 则 选择 C, 。 
记 住 使 用 线性 判别 式 假定 类 是 线性 可 分 的 。 也 就 是 说 ， 假 定 可 以 找到 分 开 x eC 和 
x e C0, 的 超 平面 wx =0。 如 果 在 后 一 阶段 我 们 需要 后 验 概率 (例如 计算 风险 ) ， 我 们 需要 在 
输出 上 使 用 S 型 函数 


o=Wwer 
he als 1 
y = sigmoid(o) = ol sl (11.4) 
“FETE K>2 个 输出 时 ， 有 天 个 感知 器 ， 每 个 都 具有 权重 向 量 w;( 参 见 图 11-2) 
d 
yı = Di wyx, + wy = wix 
y= Wx (11.5) 


其 中 wj 是 从 输入 % 到 输出 y 的 连接 权重 。W 是 wy 的 Kx (d +1) RM, Hiri K SR ae 
权重 向 量 。 当 用 于 分 类 时 ， 在 检验 阶段 ， 如 果 y = maxye， 则 我 们 选择 Ci。 


Yı y2 Ve 





Xj=tl X Xo Xs 


图 11-2 KK 个 并 行 的 感知 器 。%(j=0，…，d) 是 输入 ，y;(i=1，…, KEH wO 
是 从 输入 x 到 输出 y, 的 连接 权重 。 每 个 输出 都 是 输入 的 加 权 和 。 当 用 于 天 


类 问题 时 ， 有 一 个 后 处 理 ， 选 择 最 大 的 ， 或 者 需要 后 验 概 率 时 选择 软 最 大 
在 神经 网 络 中 ， 每 个 感知 器 的 值 是 它 的 输入 和 它 的 突 触 权重 的 局 部 函数 (local function) 。 





日 ”图 中 并 未 标 出 w;， 但 标 出 了 权重 向 量 w ，wz，…，wke 一 一 取 自 作者 勘误 


wwaibbt.com DOD00000 





[240] 


148 第 11 章 








然而 在 分 类 中 ， 如 果 我 们 需要 后 验 概率 ( 而 不 仅 是 获胜 者 类 的 编码 ) 并 使 用 软 最 大 ， 则 我 们 还 需 
要 其 他 输出 值 。 这 样 ， 为 了 将 其 作为 神经 网 络 实现 ,我们 可 以 将 其 看 作 一 个 两 阶段 过 程 ， 其 中 
第 一 阶段 计算 加 权 和 ， 而 第 二 阶段 计算 软 最 大 值 ; 但 是 我 们 仍然 将 其 表示 成 单个 输出 单元 层 : 





oj = Wix 
e O; 
y 三 二 (11.6) 
》 exp O; 
k 


回忆 一 下 ， 通 过 定义 附加 的 输入 ， 例 如 ， 定 义 xy =x X =x, Xs =x (10.2 7), R 
性 模型 也 可 以 用 于 多 项 式 通 近 。 对 于 感知 器 也 可 以 这 样 做 (Durbin 和 Rumelhart 1989 ) 。 在 
11.5 节 ， 我 们 将 看 到 多 层 感知 器 ， 那 里 非 线性 函数 从 数据 中 学 习 ， 而 不 是 先 验 假定 。 

第 10 章 讨论 的 线性 判别 式 的 任何 方法 都 可 以 离线 地 计算 w,，i=1，…,， 上 天， 然后 插入 到 
网 络 中 。 这 包括 具有 公共 协 方差 矩阵 的 参数 方法 、 逻 辑 斯 详 判 别 式 、 借 助 于 回归 的 判别 式 和 
支持 向 量 机 。 在 某 些 情况 下 ， 在 训练 开始 时 我 们 并 没有 全 部 样本 ， 并 且 随 着 新 的 实例 到 来 ， 
我 们 需要 迭代 地 更 新 参数 ; 我 们 将 在 11. 3 节 讨 论 这 种 在 线 学 习 。 

式 (11.5) 定 义 了 一 个 从 d- 维 空间 到 K- 维 空间 的 变换 ， 如 果 居 二 d， 它 也 可 以 用 于 维 归 
约 。 我 们 可 以 使 用 第 6 章 中 的 任何 方法 (如 PCA ) 离 线 地 计算 丽 ， 然 后 使 用 感知 器 实现 变换 。 
在 这 种 情况 下 ， 我 们 有 两 层 网 络 ， 其 中 第 一 层 感知 器 实现 线性 变换 ， 而 第 二 层 在 新 空间 实现 
线性 回归 或 分 类 。 注 意 ， 由 于 两 层 都 是 线性 变换 ， 因 此 它们 可 以 组 合并 用 一 层 表示 。 在 
11.5 节 ， 我 们 将 看 到 更 有 趣 的 情况 ， 其 中 第 一 层 实 现 非 线性 维 归 约 。 


11.3 训练 感知 器 


感知 器 定义 了 一 个 超 平面 ， 而 神经 网 络 感知 器 只 不 过 是 实现 超 平面 的 一 种 方法 。 给 定数 
据 样 本 ， 权 重 可 以 离线 地 计算 ， 并 且 将 它们 代 和 后， 感知 器 就 可 以 用 来 计算 输出 的 值 。 

在 训练 神经 网 络 时 ， 如 果 未 提供 全 部 样本 而 是 逐个 提供 实例 ， 则 我 们 通常 使 用 在 线 学 
习 ， 并 且 在 每 个 实例 之 后 更 新 网 络 参 数 ， 让 网 络 缓慢 地 及 时 调整 。 这 种 方法 是 令 人 感 兴趣 
的 ， 有 如 下 原因 

1) 这 使 得 我 们 不 必 在 外 存 存放 训练 样本 ， 不 必 在 优化 时 存放 中 间 结 果 。 对 于 大 样本 ， 
像 支持 向 量 机 这 样 的 方法 (10. 9 节 ) 开 销 可 能 相当 高 ， 而 对 于 某 些 应 用 ， 我 们 可 能 更 愿意 选 
择 较 简 单 的 方法 ， 不 必 存 放 全 部 样本 并 在 其 上 求解 复杂 的 优化 问题 。 

2) 问题 可 能 随时 变化 ， 这 意味 样本 的 分 布 不 固定 ， 训 练 集 不 能 预先 选 定 。 例 如 ， 我 们 
可 能 正在 实现 一 个 语音 识别 系统 ， 它 要 自动 适应 它 的 用 户 。 

3) 可 能 存在 系统 的 物理 变化 。 例 如 ， 在 一 个 机 器 人 系统 中 ， 系 统 部 件 可 能 磨损 ， 传 感 
胡可 能 失灵 。 

对 于 在 线 学 习 (online learning) ， 我 们 不 需要 全 部 样本 而 是 需要 单个 实例 上 的 误差 函数 。 
从 随机 初始 权重 开始 ， 在 每 次 迭代 中 ， 我 们 都 对 参数 稍 加 调整 ， 以 最 小 化 误差 ， 而 不 忘记 我 
们 先前 学 到 的 。 如 果 误 差 函 数 是 可 微 的 ， 则 我 们 可 以 使 用 梯度 下 降 。 

例如 ， 对 于 回归 ， 单 个 具有 标 引 上 的 实例 (x',， 7 ) 的 误差 为 


t t t 1 t è 1 t t 
E'(w |x',r') = air -y')? = alt - (w'x') ]? 
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并 且 对 于 j=0，…，d， 在 线 更 新 为 1 
Aw, = n(r - y')x; (11.7) 
其 中 7 是 学 习 因 子 ， 随 收敛 逐渐 减 小 。 这 称 作 随机 梯度 下 降 (stochastic gradient descent) 。 
类 似 地 ， 可 以 对 使 用 逻辑 斯 详 判 别 式 的 分 类 问题 导出 更 新 规则 。 在 那里 ， 每 个 模式 之 后 
进行 更 新 ， 而 不 是 把 它们 累加 在 一 起 ， 在 完全 扫描 整个 训练 集 之 后 再 进行 更 新 。 对 于 两 个 
类 ， 对 单个 实例 (rz ，, r ) ， 其 中 如 果 x eC 则 r=1， 如 果 x'eC, 则 7=0， 单 个 输出 为 
y = sigmoid(w'x') 
if ARN 
E'({w,}, |x',r') =-r logy + (1 —r')log(1 - y) 
使 用 梯度 下 降 ， 对 于 j=0，…，d， 我们 得 到 如 下 更 新 规则 : 


Aw, = n(r — y')x; (11.8) 
当 存 在 天 > 2 个 类 时 ， 对 单个 实例 (x', r), HPR x eC Wr =1, AM =0, 输出 为 
pi exp w,x' 
= > exp wx‘ 
F 
TERA 
E'({w;}; |x, r) =- È ri log y; 
使 用 梯度 下 降 ， 对 于 ;=1，…, K, J=0，…，d， 我 们 得 到 如 下 更 新 规则 : 
Aw; = nr — yi) x; (11.9) 


除了 不 在 所 有 的 实例 上 求 和 ， 而 是 在 单个 实例 之 后 更 新 外 ， 这 与 我 们 在 10.7 节 中 看 到 的 方 
程 一 样 。 算 法 的 伪 代 码 在 图 11-3 中 ， 它 是 图 10-8 算法 的 在 线 版 本 。 





Fori=1，…， 天 
For j=0, =, d 
w,,+-rand( -0.01, 0.01) 
Repeat 
For BUF FIA (a, r) ex 
Fori=1, =, K 
o; 0 
Forj=0, +, d 





0;+-0; + Wi) 
For i=l, --, K 


y;*—exp( o; )/Zexp(o,) 





Fori=1, =, K 
Forj=0, «+, d 
wij—=w; + nl ri- y; ) x 


Until 收敛 








11-3. 对 于 具有 天 >2 个 类 的 情况 ， 实 现 随机 梯度 下 降 的 感知 
器 训练 算法 。 这 是 图 10-8 中 给 出 的 算法 的 在 线 版 本 


式 (11.7) 和 式 (11.9) 都 具有 如 下 形式 
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更 新 = 学 习 因子 x (期 望 输出 - 实际 输出 ) x 输入 (11. 10) 

让 我 们 更 深入 地 考察 上 式 。 首 先 ， 如 果实 际 输出 等 于 期 望 输出 ， 则 不 需要 更 新 。 当 进行 
更 新 时 ， 更 新 随 期 望 输出 与 实际 输出 的 差 增 加 而 增加 。 我 们 还 看 到 ， 如 果实 际 输出 小 于 期 望 
输出 ， 则 当 输 入 为 正 时 更 新 为 正 ， 输 入 为 负 时 更 新 为 负 。 这 具有 增加 实际 输出 和 降低 差别 的 
效果 。 如 果实 际 输出 大 于 期 望 输出 ， 则 当 输 入 为 正 时 更 新 为 负 ， 输 入 为 负 时 更 新 为 正 ; 这 就 
降低 了 实际 输出 ， 使 得 它 更 接近 于 期 望 输出 。 

在 做 更 新 时 ， 更 新 量 还 依赖 于 输入 。 如 果 输 入 接近 于 0， 则 它 对 实际 输出 的 影响 很 小 ， 
因此 其 权重 用 一 个 较 小 的 量 更 新 。 输 入 越 大 ， 其 权重 的 更 新 也 越 大 。 

最 后 ， 更 新 量 依赖 于 学 习 因 子 m%。 如 果 它 太 大 ， 则 更 新 过 分 依赖 当前 实例 ， 就 像 系统 只 
有 短期 记忆 。 如 果 该 因子 太 小 ， 则 可 能 需要 很 多 次 更 新 才 收 敛 。 在 11. 8. 1 节 ， 我 们 将 讨论 
加 快 收敛 的 方法 。 


11.4 学 习 布 尔 函 数 


在 布尔 函数 中 ， 输 入 是 二 元 的 ， 并 且 如 果 对 应 的 函数 值 为 真 则 输出 为 1， 否则 为 0。 这 
样 ， 它 可 以 看 作 两 类 分 类 问题 。 作 为 一 个 例子 ， 考 虑 学 习 AND 两 个 输入 ， 输 入 表 和 期 望 输 
出 显示 在 表 11-1 中 。 实 现 AND 的 感知 器 和 它 的 二 维 几 何 表示 的 一 个 例子 显示 在 图 11-4 中 。 
判别 式 是 


y = s(x, +x, 一 1.5) 








(0,0) (10) LS * 


图 11-4 实现 AND 的 感知 器 和 它 的 几何 表示 
也 就 是 说 x=[1，x, 和] ,wmw=[-15,，1，1] 7。 注 意 ,y=s(x +x, -1.5) 满 足 表 11-1 中 


AND 函数 定义 给 定 的 四 个 约束 条 件 。 例 如 ， 对 于 x =1, x, =0, y=s( -0.5) =0。 类 似 地 ， 
可 以 证 明 y=s(xi +x, -0. 5) XW OR, 


表 11-1 AND 函数 的 输入 和 输出 
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尽管 像 AND 和 OR 这 样 的 布尔 函数 是 线性 可 分 的 ， 并 且 是 可 以 用 感知 器 求解 的 ， 但 是 
像 XOR 这 样 的 函数 不 是 。XOR 的 输入 和 期 望 输出 在 表 11-2 中 。 正 如 我 们 可 以 从 图 11-5 看 
到 的 ， 该 问题 不 是 线性 可 分 的 。 可 以 证 明 这 一 点 。 注 意 不 存在 w, w, A w, 的 值 满足 下 列 不 
等 式 : 
wo0 
w,+wo>0 
w, +w >O0 
w, +w, +w <0 


A 


O O 





O ai 


x; 





Al 11-5 XOR 问题 不 是 线性 可 分 的 。 我 们 不 能 划一 条 直线 使 得 空心 圆 在 一 侧 ， 实 心 圆 在 另 一 侧 
#11-2 XOR 函数 的 输入 和 输出 














我 们 对 这 一 结果 并 不 奇怪 ， 因 为 (二 维 ) 直线 的 VC 维 为 三 。 具 有 二 元 输入 ， 存 在 四 种 
情况 ， 因 此 我 们 知道 存在 具有 两 个 输入 的 问题 ， 它 们 不 能 用 直线 求解 ; XOR 就 是 其 中 
之 一 


11.5 多 层 感知 器 
具有 单 层 权重 的 感知 器 只 能 逼近 输入 的 线性 函数 ， 不 能 解决 像 XOR 这 样 的 问题 ， 这 些 





问题 的 判别 式 是 非 线性 的 。 类 似 地 ， 这 种 感知 器 也 不 能 用 于 非 线性 回归 。 对 于 输入 和 输出 层 
之 间 存 在 中 间 层 或 隐藏 层 (hidden layer) 的 前 馈 网 络 ， 就 不 存在 这 种 局 限 性 。 如 果 用 于 分 类 ， 
这 种 多 层 感 知 器 (multilayer perceptrons, MLP) 可 以 实现 非 线 性 判别 式 ， 而 如 果 用 于 回归 ， 可 
以 逼近 输入 的 非 线 性 函数 。 

输入 x 提供 给 输入 层 ( 包 括 偏 倚 ),“ 活 性 "向 前 传播 ， 并 计算 隐藏 单元 的 值 z, (参见 
图 11-6) 。 每 个 隐藏 单元 自身 都 是 一 个 感知 器 ， 并 将 非 线性 的 S 形 函数 作用 于 它 的 加 
ILF: 
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z, = sigmoid(w,x) = h=1,,H (11.11) 


1 
1 + exp | - (È vas +e) | l 


J 





为 一 +1 x, Xy 


图 11-6 多 层 感知 器 结构 。 x =0，、…，d) 是 输入 , z,(h=1, 0, A) ERREG, HP H ERE a AEE 
2) 是 隐藏 层 的 偏 位 。y,(i=1，…, 上 ) 是 输出 单元 。w 是 第 一 层 的 权重 ， 而 vi 是 第 二 层 的 权重 


输出 y, 是 在 第 二 层 的 感知 器 ， 取 隐藏 单元 作为 它们 的 输入 
yi = viz = >) ute + Vy (11.12) 
hel 


其 中 隐藏 层 还 有 一 个 偏 倚 单 元 ， 记 作 zo, M vo RETA AAA oc x 不计， 因为 计算 
不 在 那里 进行 ， 并 且 当 有 一 个 隐藏 层 时 ， 网 络 是 两 层 网 络 。 

与 通常 一 样 ， 在 回归 问题 中 ， 在 计算 y 的 输出 层 不 存在 非 线 性 。 在 两 类 判别 式 任务 中 ， 
有 一 个 S 形 输出 单元 ， 并 且 在 存在 K 二 2 个 类 时 ， 有 天 个 以 软 最 大 作为 输出 非 线性 的 输出 。 

如 果 隐 藏 层 单元 的 输出 是 线性 的 ， 则 隐藏 层 就 没有 用 : 线性 组 合 的 线性 组 合 还 是 一 种 线性 
组 合 。5 形 函 数 是 取 闭 值 的 连续 、 可 微 版 本 。 我 们 需要 可 微 性 ， 因 为 我 们 将 看 到 学 习 方 程 是 基 
于 梯度 的 。 另 一 种 可 以 使 用 的 $ 形 非 线性 基 范 数 是 双 曲 正切 函数 tanh ， 它 值 域 是 -1 到 +1， 而 
不 是 0 到 +1。 在 实践 中 ， 使 用 sigmoid 与 使 用 tanh 并 无 区 别 。 还 有 一 种 可 能 是 使 用 高 斯 函数 ， 
它 使 用 欧 氏 距离 而 不 是 用 点 积 表示 相似 性 ; 我 们 将 在 第 12 章 讨 论 这 种 径 向 基 函 数 网 络 。 

输出 是 隐藏 层 单元 计算 的 非 线 性 基 函 数值 的 线性 组 合 。 可 以 说 隐藏 单元 做 了 一 个 从 d- 维 
输入 空间 到 隐藏 单元 生成 的 H- 维 空间 的 非 线 性 变换 ， 并 且 在 这 个 空间 中 ,输出 层 实现 了 一 
个 线性 函数 。 

我 们 不 限于 只 有 一 个 隐藏 层 ， 而 是 可 以 将 更 多 的 、 具 有 自己 的 输入 权重 的 隐藏 层 放 置 在 
具有 S 形 隐 藏 单元 的 第 一 个 隐藏 层 之 后 ， 从 而 计算 第 一 个 隐藏 单元 层 的 非 线性 函数 ， 实 现 输 
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入 的 更 复杂 的 函数 。 实 践 中 ， 人 们 很 少 构建 超过 一 个 隐藏 层 的 网 络 ， 因 为 分 析 多 个 隐藏 层 的 
网 络 相当 复杂 。 但 是 ， 有 时 隐藏 层 包 含 的 隐藏 单元 太 多 时 ， 使 用 多 个 隐藏 层 可 能 是 明智 的 ， 
TUR KIE” 的 网 络 ， 也 不 要 ”“ 短 而 胖 " 的 网 络 。 


11.6 作为 普 适 近似 的 MLP 


我 们 可 以 将 任意 布尔 函数 表示 成 合 取 的 析 取 ， 这 样 一 个 布尔 表达 式 可 以 用 一 个 具有 一 个 
隐藏 层 的 多 层 感 知 器 实现 。 每 个 合 取 用 一 个 隐藏 单元 实现 ， 而 析 取 用 输出 单元 实现 。 例 如 ， 
x,XOR x, = (x AND ~x,)OR( ~x AND x,) 

前 面 我 们 已 经 看 到 如 何 使 用 感知 器 实现 AND 和 OR。 因 此 ， 两 个 感知 器 可 以 平行 地 实现 
两 个 AND, ， 而 另 一 个 感知 器 可 以 将 它们 OR 在 一 起 (参见 图 11-7) 。 我 们 看 到 ， 第 一 个 隐藏 
层 将 输入 从 (x;，zx; ) 映射 到 由 第 一 层 感 知 器 定义 的 (za ，z) 空间 。 注 意 , 输入 (0, 0) 和 (1， 
1 ) 都 被 映射 到 (z ，2 ) 空间 的 (0，0) ， 使 得 在 第 二 个 空间 是 线性 可 分 的 。 














图 11-7 求解 XOR 问题 的 多 层 感 知 器 。 隐 藏 单元 和 输出 单元 具有 闪 值 在 0 上 的 阔 值 激活 函数 


这 样 ， 在 二 元 情况 下 ， 对 于 输出 为 1 的 每 个 输入 组 合 ， 我 们 定义 一 个 隐藏 单元 ， 它 检查 
输入 的 这 个 特定 合 取 。 然 后 ， 输 出 单元 实现 析 取 。 注 意 ， 这 只 是 一 个 存在 性 证 明 ， 而 这 种 网 
络 可 能 不 现实 ， 因 为 当 存 在 d 个 输入 时 ， 可 能 需要 多 达 2° 个 隐藏 单元 。 这 种 结构 实现 了 表 
查找 而 不 是 一 般 化 。 

我 们 可 以 将 这 些 扩 展 到 输入 是 连续 值 的 情况 ， 并 且 类 似 地 证 明 具 有 连续 输入 和 输出 的 任何 
函数 都 可 以 用 多 层 感知 器 近似 。 使 用 两 个 隐藏 展 ， 普 适 近 似 (universal approximation ) 的 证 明 很 
容易 : 对 于 每 种 输入 或 区 域 ， 使 用 第 一 个 隐藏 层 上 的 隐藏 单元 ， 该 区 域 可 以 被 所 有 边 上 的 超 平 
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面 所 界定 。 第 二 个 隐藏 层 的 单元 AND 它们 ， 围 住 该 区 域 。 然 后 ， 将 隐藏 单元 到 输出 单元 的 连 
接 权重 设置 为 期 望 的 函数 值 。 这 给 出 函数 的 分 段 常 量 近 似 (piecewise constant approximation ) ; 
这 对 应 忽略 泰勒 展开 式 中 除 常数 项 之 外 的 所 有 项 。 增 加 隐藏 单元 的 数量 ， 并 在 输入 空间 中 取 更 
细 的 栅 格 ， 可 以 提高 逼近 期 望 值 的 精度 。 注 意 ， 没 有 给 定期 望 的 隐藏 单元 个 数 的 形式 上 界 。 这 
种 性 质 只 是 确保 存在 一 个 解 ; 除 此 之 外 对 我 们 并 无 其 他 帮助 。 业 已 证 明 ， 具 有 一 个 隐藏 层 的 
MLP( 具 有 任意 个 数 的 隐藏 单元 ) 可 以 学 习 输入 的 任意 非 线性 函数 (Homik 、Stinchcombe 和 
White 1989) 。 


11.7 后 向 传播 算法 


训练 多 层 感 知 器 与 训练 感知 器 一 样 ; 唯一 的 区 别 是 现在 的 输出 是 输入 的 非 线 性 函数 ， 这 
要 感谢 隐藏 单元 中 的 非 线性 偏 傈 函数 。 考 虑 把 隐藏 单元 作为 输入 ， 第 二 层 是 感知 器 ， 我 们 已 
经 知道 在 给 定 输入 zx 的 情况 下 ， 如 何 更 新 参数 v,。 对 于 第 一 层 权 重 ww ， 我 们 使 用 链 规则 计 
算 梯 度 : 
dE _ dE Oy; ðZ, 
OW, OY; OZ, OW); 
误差 就 像 从 输出 y 传 回 到 输出 一 样 ， 因 此 新 创 了 术语 后 向 传播 ( backpropagation ) ( Rumel- 
hart, Hinton 和 Williams 1986a) 。 





11.7.1 非 线 性 回归 
让 我 们 首先 考虑 用 下 式 计算 的 (具有 单个 输出 的 ) 非 线性 回归 : 


y = Ye + vo (11.13) 
HEP z, 用 式 (11. 11) 计 算 。 在 整个 回归 样本 上 的 误差 本 数 是 
E(W,v |X) i eh (11. 14) 
第 二 层 是 以 隐藏 单元 为 输入 的 感知 器 ， 并 且 我 们 使 用 最 小 二 乘 规则 来 更 新 第 二 层 的 权重 : 
Av, = 人 之 (r -ya (11.15) 


第 一 层 也 是 感知 器 ， 以 隐藏 单元 作为 输出 单元 ， 但 在 更 新 第 一 层 权 重 时 ， 我 们 不 能 直接 
使 用 最 小 二 乘 规则 ， 因 为 对 于 这 些 隐 藏 单元 ， 我 们 没有 指定 的 期 望 输出 。 这 正 是 链 规则 起 作 
用 的 地 方 。 我 们 有 

ðE 
7H Wj 





Aw, = 





y 2E ay! a 
dy’ dz, AW; 


= eni = (r =- y') vn z,(1 — z) x 


ðE'/ðy' ðy'/ðzh ðzh/ dwj 


= 9d (r -y oh — 24) 3) (11. 16) 
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前 两 项 的 乘积 (~ -Y )w 就 像 隐 蕊 单元 h 的 误差 项 。 误 差 向 后 传播 到 隐藏 单元 。(7 -y ) 
是 输出 误差 ， 按 隐藏 单元 的 “责任 "加 权 ， 由 其 权重 w 给 出 。 在 第 三 项 中 , z,(1 -z,) dE SB 
函数 的 导数 ，%; 是 加 权 和 关于 权重 ww 的 导数 。 注 意 ， 第 一 层 权重 的 改变 Aw tE T 
的 权重 。 因 此 ， 我 们 应 当 计算 两 层 的 改变 ， 并 更 新 第 一 层 的 权重 ， 然 后 使 用 第 二 层 权 重 的 
旧 值 更 新 第 二 层 的 权重 。 

Ie), Mw, Allo, 从 小 随机 值 ( 例 如 ， 区 间 [ -0.01，0.01] 中 的 值 ) 开 始 ， 使 得 S JEA 
数 不 饱和 。 规 范 化 输入 使 得 它们 都 具有 均值 0 和 单位 方差 并 且 具 有 相同 尺度 也 是 一 种 好 的 想 
法 ， 因 为 我 们 使 用 了 单个 7 参数 。 

使 用 这 里 给 定 的 学 习 方程 ， 对 于 每 个 模式 ， 我 们 计算 每 个 参数 改变 的 方向 和 改变 量 。 
在 批 学 习 (batch learning) ， 我 们 累积 所 有 模式 上 的 改变 ， 并 且 在 完全 扫描 了 整个 训练 集 之 
后 做 一 次 改变 ， 如 前 面 的 更 新 方程 所 示 。 训 练 集 中 所 有 模式 的 一 次 完整 扫描 称 作 一 个 周 
期 (epoch) 。 也 可 以 在 线 学 习 ， 每 个 模式 后 更 新 权重 ， 实 现 随机 梯度 下 降 。 在 这 种 情况 
下 ， 应 当选 择 较 小 的 学 习 因 子 %， 并 且 应 当 以 随机 次 序 扫描 模式 。 因 为 数据 集中 可 能 有 类 
似 的 模式 ， 在 线 学 习 收 敛 较 快 , 并 且 随 机 性 具有 增加 噪声 的 效果 ,并 有 助 于 避免 陷入 局 
部 极 小 。 

为 回归 训练 多 层 感知 器 的 一 个 例子 显示 在 图 11-8 中 。 随 着 训练 继续 ，MLP 拟 合 逐 渐 接 
近 底 层 函 数 ， 并 且 误 差 降低 (参见 图 11-9) 。 图 11-10 显示 如 何 用 隐藏 单元 输出 的 和 形成 
MLP 拟 合 。 

















-2 1 1 1 1 1 1 1 i 1 
-0.5 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 04 05 


图 11-8 样本 训练 数据 显示 为 “+”， 其 中 x ~U( -0.5, 0.5), 而 y =f) + 
N(0, 0.1). f(x) =sin(6x) 用 虚线 显示 。 图 中 绘制 了 100, 200 和 300 
个 周期 后 ， 具 有 两 个 隐藏 单元 的 MLP 的 拟 合演 变 
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11-9 作为 训练 周期 的 函数 ， 训 练 和 验证 集 上 的 均 方 误差 
4 F: j 4r 


ab i 3 3 


























-2 } % =j -2$ 

-3 | -3 | -3 

-4 L 4 =d 1 4 1 ) 

-0.5 0 0.5 -0.5 0 0.5 $5 0 0.5 
a) b) c) 


Æ 11-10 a) 第 一 层 上 隐藏 单元 权重 的 超 平面 ，b) 隐藏 单元 输出 ，e) 隐藏 单元 输出 乘 以 第 
二 层 的 权重 。 纤 细 线 显示 的 两 个 S 形 隐藏 单元 ， 一 个 乘 以 负 权 重 ， 相 加 时 实现 
隆起 。 使 用 更 多 的 隐藏 单元 可 以 得 到 更 好 的 近似 (参见 图 11-12) 
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还 可 以 有 多 个 输出 单元 。 在 这 种 情况 下 ， 同 时 学 习 多 个 回归 问题 。 我 们 有 


Yi = D Vazh + ry (11.17) 
而 误差 是 
E(W,V |x) = 地 ba (11. 18) 
批 更 新 规则 为 
Avi, = 9d (= yda (11. 19) 
Aw, = p> p Cri = yi)va JC =z) (11. 20) 


Ei (riy) vn EDTA TH ARIRE. MARWARE 11-11 中 。 注 意 ， 在 这 种 
情况 下 ， 所 有 输出 单元 共享 相同 的 隐藏 单元 ， 因 此 使 用 相同 的 隐藏 表示 。 一 种 可 供 选择 的 方 
法 是 对 每 个 回归 问题 训练 一 个 多 层 感 知 器 ， 每 个 都 有 自己 的 隐藏 单元 。 


将 所 有 的 vy, Al zw 初始 化 为 rand( -0.01, 0.01) 





Repeat 
For 随机 次 序 下 所 有 的 (x'，r') eX 
Forh=1, =, H 


zh *— sigmoid ( wrx ) 
For i=l, =, K 


Yi = 








For i=l, =, K 
Av; =n(r -y;)z 
Forh=1, =, H 
Aw, =n( È (ri = yi) vin) za an) x 
Fori=1, =, K 
vv, + Av, 
Forh=1, =, H 
W, |W, + Aw, 
Until 收敛 





图 11-11 为 具有 天 个 输出 的 回归 训练 多 层 感知 器 的 后 向 传播 算法 。 容 易 调 整 代码 
用 于 两 类 问题 (设置 单个 S 形 输出 ) 和 天 之 2 类 问题 (使 用 软 最 大 输出 ) 


11.7.2 两 类 判别 式 
在 只 有 两 个 类 时 ， 一 个 输出 单元 就 足够 了 : 


= sigmoid ( P vazh + vo ) (11.21) 
它 近 似 P(C |x') MU PC(C, |x') = 1 -ys M10.7 节 中 ,我 们 知道 在 此 情况 下 ， 误 差 函数 是 
E(W,v |X) =- Drlogy + (1 -r')log(1 - y') (11. 22) 
实现 梯度 下 降 的 更 新 方程 是 
Av, = nd (r - y')% (11. 23) 
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Aw, = 7 ¥ (r -y Joza (l - zi) (11.24) 
与 简单 感知 器 一 样 ， 回 归 和 分 类 的 更 新 方程 是 相同 的 (这 不 意味 它们 的 值 相 同 ) 。 


11.7.3 多 类 判别 式 
在 天 >2 类 分 类 问题 中 ， 有 天 个 输出 


oi = Slat ode (11.25) 
并 且 我 们 使 用 软 最 大 指示 类 之 间 的 依赖 性 ， 即 它们 是 互 斥 的 和 穷 举 的 : 


t 
exp o; 


ee 11. 26 
Yi Sepa ( ) 
k 

其 中 近似 P(C, |x')。 误 差 函 数 是 
E(W,V |X) =- J, 2 ri log y; (11.27) 

并 且 我 们 使 用 梯度 下 降 得 到 更 新 方程 : 
Ava = nd (i yi) (11.28) 
dwy = n> [DC - yi)va |A = 2) a) (11.29) 


Richard 和 Lippmann(1991 ) 证 明 ， 给 定 一 个 足够 复杂 的 网 络 和 足够 的 训练 数据 ， 适 当 训 
练 的 多 层 感 知 器 可 估计 后 验 概率 。 


11.7.4 多 个 隐藏 层 


正如 我 们 在 前 面 看 到 的 ， 可 以 有 多 个 隐藏 层 ， 每 个 具有 自己 的 权重 ， 并 将 S 形 函 数 作用 
于 它 的 加 权 和 。 对 于 回归 ， 假 设 我 们 有 一 个 多 层 感知 器 ， 具 有 两 个 隐藏 层 ， 我 们 有 


y 


d 
Zz, = sigmoid(w},x) = sigmoid ( > wing; + Wig ) yh = 11H 
j=l 


Ay 
: 4 T Š s 
zz = sigmoid(w,z,) = sigmoid ( > Woy,Z\, + Wyo ) w= lms 
KZO 


H 
— i 一 
y =r z = DY viz2 + vo 
l=1 


其 中 wi; 和 wy 分 别 是 第 一 和 第 二 层 的 权重 ,zi 和 2p, SPE A — 7 Bas oc, iil y 
是 第 三 层 的 权重 。 训 练 这 种 网 络 是 类 似 的 ， 唯 一 的 区 别 在 于 ， 为 了 训练 第 一 层 的 权重 ,我 们 
需要 后 向 传播 更 多 层 (习题 5)。 


11.8 训练 过 程 
11. 8.1 改善 收敛 性 
梯度 下 降 具 有 多 种 优点 。 它 简单 。 它 是 局 部 的 ， 即 权重 的 改变 只 使 用 前 后 突 触 单元 和 误 
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差 (适合 后 向 传播 ) 的 值 。 当 使 用 在 线 训练 时 ， 它 不 需要 存储 训练 集 ， 并 且 可 以 自 适 应 学 习 
任务 的 变化 。 由 于 这 些 原 因 ， 它 可 以 (并 且 已 经 ) 用 硬件 实现 。 但 是 ， 就 自身 而 言 ， 梯 度 下 
降 收 敛 很 慢 。 当 学 习 时 间 很 重要 时 ， 可 以 使 用 更 复杂 的 优化 方法 (Battiti 1992 ) 。Bishop 
(1995 ) 详细 讨论 了 多 层 感 知 器 训练 的 共 轿 梯度 的 应 用 和 二 阶 方法 。 然 而 ， 有 两 种 频繁 使 用 
的 简单 技术 ， 可 以 显著 地 改善 梯度 下 降 的 性 能 ， 使 得 基于 梯度 的 方法 在 实际 应 用 中 是 可 
行 的 。 

1. 动量 


Aw, 为 多 层 感 知 器 任意 层 中 的 任意 权重 ,包括 偏 倚 。 在 每 次 参数 更 新 ， 相 继 的 Aw, 可 
能 很 不 相同 以 至 于 可 能 出 现 摆 动 ， 减 缓 收敛 。t 为 时 间 指 数 ， 是 批 学 习 的 周期 数 和 在 线 学 习 
的 迭代 次 数 。 基 本 思想 是 在 当前 的 改变 中 考虑 上 一 次 的 更 新 ， 取 移动 平均 ， 就 好 像 因 上 次 更 
新 而 存在 动量 (momentum ) : 


Aw; =- n? + atu (11.30) 
通常 ，a 在 0.5 和 1.0 之 间 取 值 。 当 使 用 在 线 学 习 时 ， 这 种 方法 特别 有 用 。 我 们 将 得 到 


平均 和 光滑 收敛 轨迹 的 效果 。 缺 点 是 需要 将 过 去 的 Aw‘! 存放 在 附加 的 存储 中 。 
2. 自 适 应 学 习 率 


在 梯度 下 降 中 ， 学 习 因 子 n 决定 参数 的 改变 量 。 它 通常 在 0.0 到 1.0 之 间 取 值 ， 大 部 分 
情况 下 小 于 或 等 于 0.2。 为 了 更 快 收 和 但 ， 可 以 让 它 自 适应 。 学 习 进 行 时 它 保 持 较 大 ， 学 习 减 
慢 时 它 也 减 小 : 

A spre wR EY < E' 
-bn EN 
这 样 ， 如 果 训 练 集 上 的 误差 减 小 ， 则 7 增加 一 个 常量 ; 如 果 误 差 增 大 ， 则 7 ho HFE 
可 能 从 一 个 周期 到 另 一 个 周期 震荡 ， 因 此 最 好 用 过 去 几 个 周期 的 平均 值 作为 Eo 


(11.31) 


11.8.2 过 分 训练 


具有 个 输入 、 瑟 个 隐藏 单元 、K 个 输出 的 多 层 感 知 器 的 第 一 层 有 瑟 (d+1) 个 权重 ， 第 
二 层 有 K(H+1) 个 权重 。MLP 的 时 间 和 空间 复杂 度 都 是 90(H. (K+d) )。 用 e 表示 训练 周期 
数 ， 则 训练 时 间 复 杂 度 为 O(e*: H+ (K+d))。 

在 一 个 应 用 中 ，d 和 是 预先 确定 的 ,， 昌 是 参数 ， 我 们 用 它 来 调整 模型 的 复杂 性 。 从 前 
面 的 章节 中 我 们 知道 ， 过 于 复杂 的 模型 记 住 了 训练 集中 的 噪声 ， 不 能 泛 化 到 验证 集 。 例 如 ， 
先前 我 们 在 多 项 式 回 归 中 已 经 看 到 这 种 现象 ， 在 那里 我 们 看 到 噪声 或 小 样本 的 出 现 增 加 了 多 
项 式 的 阶 ， 导 致 更 糟糕 的 泛 化 。 类 似 地 ， 在 MLP 中 ， 当 隐藏 单元 数 很 大 时 ， 泛 化 精度 恶化 
(参见 图 11-12) ， 并 且 像 任何 统计 学 估计 一 样 ， 对 于 MLP， 也 存在 偏 倚 / 方 差 的 两 难 选择 
(Geman 、Bienenstock 和 Doursat 1992 ) 。 
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图 11-12” 随 着 复杂 度 增加 ， 训 练 误差 固定 但 验证 误差 开始 增加 ， 网 络 开始 过 分 拟 合 

当 训 练 时 间 过 长 时 ， 类 似 的 事情 也 会 发 生 : 随 着 训练 周期 的 增加 ， 训 练 集 上 的 误差 降 
低 ， 但 是 当 超 过 某 一 点 时 ， 验 证 集 上 的 误差 开始 增加 (参见 图 11-13 ) 。 回 忆 一 下 ， 最 初 所 有 
的 权重 都 接近 于 0， 因此 影响 很 小 。 随 着 训练 继续 进行 ， 大 部 分 重要 的 权重 开始 离开 0 并 发 
挥 作用 。 但 是 ， 如 果 训 练 一 直 继 续 ， 得 到 训练 集 上 越 来 越 小 的 误差 ， 几 乎 所 有 的 权重 都 被 更 
新 ， 远 离 0 成 为 有 效 的 参数 。 这 样 ， 随 着 训练 继续 进行 ， 就 像 将 新 的 参数 添加 到 系统 中 一 
样 ， 增 加 了 系统 的 复杂 度 ， 导 致 糟糕 的 泛 化 。 学 习 应 当 在 不 是 太 晚 时 停止 ， 以 减轻 过 分 训练 
(overtraining) 问题 。 停 止 训练 的 最 佳 点 和 最 佳 隐 藏 单元 数 通 过 交叉 验证 确定 ， 这 涉及 在 训练 
期 间 未 曾 见 过 的 验证 集 上 测试 网 络 的 性 能 。 








3.5 y~ T =F T T T T T T 
ji -Hi 
3 Fi: 
abe | 
gF 
1 
0.5 











0 100 200 300 400 500 600 700 800 900 1000 
训练 周期 


图 11-13 随 着 训练 继续 进行 ， 验 证 误差 开始 增加 ， 网 络 开始 过 分 拟 合 
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由 于 非 线性 性 ， 误 差 函 数 可 能 具有 多 个 极 小 ， 而 梯度 下 降 收敛 于 最 近 的 极 小 。 为 了 能 够 
获得 期 望 的 误差 ， 通 常 以 不 同 的 初始 权重 开始 ， 对 相同 的 网 络 训练 多 次 ， 并 且 计 算 验证 误差 
的 平均 值 。 


11. 8.3 构造 网 络 


在 某 些 应 用 中 ， 我 们 可 能 相信 和 输入 具有 局 部 结构 。 例 如 ， 在 视频 中 ， 我 们 知道 邻近 的 
像素 是 相关 的 ， 并 且 存 在 诸如 边 、 角 等 局 部 特征 。 任 何 对 象 ， 如 手写 体 数字 ， 都 可 以 定 
义 为 这 些 图 元 的 组 合 。 类 似 地 ， 在 语音 中 ,存在 时 间 局 部 性 ， 并 且 时 间 上 相近 的 输入 可 
能 组 成 语音 基 元 。 组 合 这些 基 元 ， 可 以 定义 较 长 的 话语 ， 如 语音 音素 。 在 这 种 情况 下 ， 
在 设计 MLP 时 ， 并 不 是 将 隐藏 单元 连接 到 所 有 的 输入 单元 ， 因 为 并 非 所 有 的 输入 都 是 相 
关 的 。 替 换 地 ， 我 们 定义 隐藏 单元 ， 它 在 输入 空间 上 定义 一 个 输入 窗口 ， 并 且 仅 与 输入 
的 一 个 小 的 局 部 子 集 相 连接 。 这 样 做 减少 了 连接 数 ， 从 而 减少 了 自由 参数 的 数目 (Le Cun 
等 1989), 

我 们 可 以 在 相继 层 重 复 这 一 做 法 ， 直 到 输出 层 。 每 层 连接 下 一 层 的 少量 局 部 单元 ， 并 且 
通过 组 合 下 面 输入 空间 的 较 大 部 分 ， 检 测 更 复杂 的 特征 ， 直 到 输出 单元 (参见 图 11-14) 。 例 
如 ， 输 入 可 能 是 像素 。 通 过 观察 像素 ， 第 一 个 隐藏 层 的 单元 可 以 学 习 检 测 各 方向 的 边 。 然 
后 ， 通 过 组 合 一 些 边 ， 第 二 个 隐藏 层 的 单元 可 以 学 习 检 测 边 的 组 合 ( 例 如 弧 、 角 、 线 段 ) ， 
并 且 在 较 高 层 组 合 它 们 。 这 些 单元 可 以 寻找 半圆 、 和 矩形 ,或 者 在 脸 部 识别 应 用 中 ， 寻 找 眼 、 
嘴 等 。 这 是 层次 锥 体 (hierarchical cone) 的 一 个 例子 ， 随 着 我 们 沿 着 网 络 向 上 直到 我 们 得 到 
类 ， 特 征 越 来 越 复杂 、 抽 象 ， 并 且 数 量 越 来 越 少 。 

















图 11-14 一 个 结构 化 的 MLP。 每 个 单元 都 连接 到 其 下 单元 的 一 个 局 部 组 群 ， 
并 检测 一 个 特定 的 特征 (例如 视频 中 的 边 、 角 等 ) 。 每 个 区 域 只 显示 
了 一 个 隐藏 单元 。 通 常 ， 有 许多 隐藏 单元， 检测 不 同 的 局 部 特征 


在 这 种 情况 下 ， 我 们 可 以 通过 权重 共享 (weight sharing) 进一步 减少 参数 的 数目 。 再 次 以 
视频 识别 为 例 ， 我 们 可 以 看 到 : 在 我 们 寻找 类 似 有 向 边 这 样 的 特征 时 ， 它 们 可 能 出 现在 输入 
空间 的 不 同 部 分 。 因 此 ， 替 代 定 义 独立 的 隐藏 单元 学 习 输 入 空间 不 同 部 分 的 不 同 特征 ， 我 们 
可 以 有 考察 输入 空间 不 同 部 分 的 相同 隐藏 单元 的 复制 (参见 图 11-15)。 在 学 习 期 间 ， 我 们 取 
不 同 的 输入 计算 梯度 ， 然 后 对 它们 取 平 均值 ， 并 做 单个 更 新 。 这 意味 单个 参数 定义 多 个 连接 
上 的 权重 。 此 外 ， 由 于 一 个 权重 上 的 更 新 基于 多 个 输入 的 梯度 ， 因 此 训练 集 实 际 上 就 像 有 许 
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多 个 。 





图 11-15 在 权重 共享 中 ， o a a a 但 是 共享 相同 的 权重 值 
(用 线 型 表示 ) 。 只 显示 了 一 组 单元 ; 应 当 有 多 组 单元 ， 每 个 检测 不 同 的 特征 


11. 8.4 线索 


局 部 结构 的 知识 使 得 我 们 可 以 预先 构造 多 层 网 络 ， 并 且 使 用 权重 共享 ， 使 得 它 具 有 较 少 
的 参数 。 具 有 全 连接 层 的 MLP 不 具有 这 种 结构 ， 并 且 更 难 训练 。 可 能 的 话 ， 与 应 用 相关 的 
任何 类 型 的 知识 都 应 当 构建 到 网 络 结构 中 。 这 些 称 作 线索 (hints)(Abu- Mostafa 1995), Eff] 
是 我 们 知道 的 目标 函数 的 性 质 ， 独 立 于 训练 实例 。 

在 图 像 识 别 ， 存 在 一 些 不 变性 线索 : 对 象 旋转 、 变 换 或 缩放 时 ， 它 的 恒 等 性 不 变 (参见 
图 11-16) 。 线 索 是 辅助 信息 ， 可 以 用 来 指导 学 习 过 程 ， 并 且 在 训练 集 有 限时 特别 有 用 。 使 
用 线索 可 以 有 不 同 的 方法 : 


K 11-16 当 对 象 变换 、 旋 转 或 缩放 时 ， 它 的 恒 等 性 不 变 。 注 意 这 并 非 总 是 为 真 ， 或 者 可 能 在 某 种 

程度 为 真 :“b” 和 "qd”" 互 为 旋转 版 本 。 这 些 是 可 以 纳入 到 学 习 过 程 中 使 学 习 更 容易 的 线索 

1) 可 以 使 用 线索 创建 虚拟 实例 (virtual example) 。 例 如 ， 知 道 对 象 是 缩放 不 变 的 ， 由 给 
定 的 训练 实例 ， 我 们 可 以 用 不 同 的 尺寸 产生 多 个 复制 ， 并 以 相同 的 类 标号 将 它们 添加 到 训练 
集中 。 这 样 做 的 优点 是 增 大 了 训练 集 并 且 不 需要 对 学 习 方 法 做 任何 修改 。 问 题 可 能 是 对 于 学 
习 方法 ， 可 能 需要 太 多 实例 来 学 习 不 变性 。 

2) 不 变性 可 以 作为 预 处 理 阶 段 实现 。 例 如 ， 光 学 字符 读 和 器 可 以 有 一 个 预 处 理 步 
又 ， 将 输入 字符 的 图 像 关 于 尺寸 和 倾斜 进行 中 心 化 和 规范 化 。 当 可 行 时 ，i ane 
的 解决 方案 。 

3) 线索 可 以 纳入 到 网 络 结构 中 。 我 们 在 11. 8. 3 节 看 到 的 局 部 结构 和 权重 共享 就 是 一 个 
例子 ， 那 里 我 们 对 小 变换 和 旋转 得 到 不 变性 。 

4) 也 可 以 通过 修改 误差 函数 纳入 线索 。 假 设 我 们 知道 从 应 用 角度 来 说 x 和 x' 是 相同 的 ， 
其 中 x' 是 x 的 “虚拟 实例 ”。 也 就 是 说 ， 当 (x) 是 我 们 要 荧 近 的 函数 时 ,f(x) =f(x')。 让 我 
们 用 g(x 19) 表 示 我 们 的 逼近 函数 ,例如 MLP， 其 中 9 是 它 的 权重 。 然 后 ， 对 于 所 有 这 样 的 
(x, x), RITET KX 

E, = [g(x l0) -g(x' |0) ]? 
并 把 它 作为 一 个 额外 项 加 到 通常 的 误差 函数 中 : 
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E'=E+A E, 
这 是 一 个 罚 项 ， 处 罚 预 测 不 服从 线索 的 案例 ， 而 A 是 这 种 罚 的 权重 ( Abu- Mostafa 1995) 。 











另 一 个 例子 是 近似 线索 : 假设 对 于 x， 我 们 不 知道 准确 的 fx) 值 ， 但 是 我 们 知道 它 在 区 
Ela, b ] 中 ， 则 我 们 添加 的 罚 项 是 : 
0 如 果 g(x19) e[a,, 5] 
E,=((g(x)-a,)? ”如 果 g(x19) <a, 
(g(x) -b,)* dR g(x lO) >b, 
这 类 似 于 支持 向 量 机 回归 中 使 用 的 误差 函数 (10.9.4 节 ) ， 它 容忍 小 近似 误差 。 
还 有 一 个 例子 是 正切 支撑 (tangent prop) (Simard 等 1992)， 其 中 变换 与 我 们 定义 的 线索 
相对 。 例 如 ， 旋 转 一 个 角度 用 一 个 函数 建 模 。 通 常 的 误差 函数 被 修改 (添加 另 一 个 项 )， 使 
得 参数 可 以 沿 着 这 条 变换 线 移动 而 不 改变 误差 。 


11.9 调整 网 络 规模 


前 面 ， 我 们 看 到 ， 当 网 络 太 大 ， 具 有 太 多 自由 参数 时 ， 泛 化 可 能 不 好 。 为 了 找到 最 佳 网 
络 规模 ， 最 常用 的 方法 是 尝试 不 同 的 结构 ， 在 训练 集 上 训练 它们 ， 并 选择 对 验证 集 泛 化 最 好 
的 结构 。 另 一 种 方法 是 将 结构 自 适应 (structural adaptation) 合并 到 学 习 算 法 中 。 有 两 种 方法 
可 以 做 这 件 事 : 

1) 在 破坏 性 ( destructive) 方 法 中 ， 我们 从 一 个 大 网 络 开 始 ， 逐 步 删 除 不 必要 的 单元 和 / 
或 连接 。 

2) 在 建设 性 (constructive) 方 法 中 ， 我们 从 一 个 小 网 络 开始 ， 逐 步 增加 改善 性 能 的 单元 
和 /或 连接 。 

一 种 破坏 性 方法 是 权 豪 减 (weight decay) ， 其 基本 思想 是 删除 不 必要 的 连接 。 理 想 情 况 
下 ,为 了 能 够 确定 一 个 单元 或 连接 是 否 必要 ， 我们 需要 使 用 它 训练 一 次 ， 不 使 用 它 训 练 一 
次 ， 并 检查 独立 的 验证 集 上 的 误差 之 差 。 这 种 开销 很 大 ， 因 为 这 件 事 需要 在 单元 /连接 的 所 
有 组 合 上 做 。 

假设 如 果 一 个 连接 的 权重 为 0， 则 没有 使 用 它 。 我 们 给 每 个 连接 一 个 衰减 到 0 的 趋势 ， 
使 得 它 除非 为 了 降低 误差 而 被 明显 地 加 强 ， 否 则 就 将 消失 。 对 于 网 络 中 的 任意 权重 w, R 
们 使 用 更 新 规则 : 
ðE 


Aw, =~ 9 $ =- Am, (11.32) 
SERA TERE PRC OE PE, FETE eR AY Ze : 
Earr Su; (11.33) 


较 简 单 的 网 络 是 较 好 的 泛 化 器 暗示 我 们 通过 增加 一 个 罚 项 实现 。 注 意 ， 我 们 并 不 是 说 简 
单 的 网 络 总 是 比 大 网 络 好 ; 我 们 是 说 如 果 我 们 有 两 个 具有 相同 的 训练 误差 的 网 络 ， 则 较 简单 
的 那个 ( 即 具 有 较 少 权重 的 那个 ) 有 较 高 的 可 能 性 更 好 地 泛 化 到 验证 集 上 。 

式 (11.32) 中 第 二 项 的 效果 像 一 个 弹簧 ， 将 每 个 权重 拉 向 0。 从 一 个 接近 于 0 的 值 开始 ， 
除非 实际 误差 的 梯度 很 大 并 导致 更 新 ， 和 否则 由 于 第 二 项 ， 权 重 将 逐渐 衰减 为 0。A 是 参数 ， 
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决定 训练 集 上 误差 和 由 于 非 零 参 数 导致 的 复杂 性 的 相对 重要 性 ， 因 此 决定 衰减 速度 : 使 用 大 
的 A， 无 论 训练 误差 多 大 ， 权 重 将 被 拉 向 0; 使 用 小 的 入 ， 对 非 零 权重 的 罚 不 大 。 使 用 交叉 
验证 对 A 进行 微调 。 

取代 从 大 网 络 开始 并 前 去 不 必要 的 连接 或 单元 ， 我 们 也 可 以 从 小 网 络 开 始 ， 必 要 时 添加 
单元 和 相关 的 连接 (参见 图 11-17)。 在 动态 节点 创建 (dynamic node creation) ( Ash 1989) 中， 
训练 具有 一 个 隐藏 层 和 一 个 隐藏 单元 的 网 络 ， 收 和 敛 后 如 果 误 差 仍 然 很 高 ， 则 添加 一 个 单元 。 
随机 初始 化 新 添加 的 单元 的 输入 权重 和 输出 权重 并 与 先前 存在 的 权重 一 起 训练 。 先 前 存在 的 
权重 不 再 重新 初始 化 ， 并 从 先前 的 值 开 始 。 





动态 节点 创建 级 联 相关 
图 11-17 建设 性 方法 的 两 个 例子 : 动态 节点 创建 向 一 个 已 存在 的 隐藏 层 添加 一 个 
单元 。 级 联 相关 添加 每 个 单元 作为 新 的 隐藏 层 ， 连 接 到 前 面 的 所 有 层 。 
虚线 表示 新 增加 的 单元 /连接 。 为 清晰 起 见 ， 忽 略 了 偏 倚 单 元 /权重 


在 级 联 相 关 (cascade correlation) 中 (Fahlman 和 Lebiere 1990)， 每 个 添加 的 单元 是 男 一 个 
隐藏 层 中 的 新 的 隐藏 单 元 。 每 个 隐藏 层 只 有 一 个 单元 连接 到 它 前 面 所 有 隐藏 单元 和 输入 。 已 
存在 的 权重 被 冻结 ， 不 再 训练 ， 只 训练 新 添加 的 单元 的 输入 和 输出 权重 。 

动态 节点 创建 在 已 经 存在 的 隐藏 层 中 创建 一 个 新 的 隐藏 单元 ， 而 不 增加 新 的 隐藏 层 。 级 
联 关 联 总 是 创建 具有 单个 单元 的 隐藏 层 。 理 想 的 建设 性 方法 应 当 能 够 决定 何 时 引进 一 个 新 的 
隐藏 屋 ， 何 时 向 已 有 的 隐藏 层 添加 新 单元 。 这 是 一 个 尚 待 解 决 的 研究 问题 。 

增 量 算 法 很 有 趣 ， 因 为 它 在 训练 阶段 不 仅 修改 参数 ， 而 且 修 改 模型 结构 。 我 们 可 以 考虑 
被 多 层 感 知 器 结构 定义 的 空间 和 在 该 空间 移动 、 对 应 于 增加 或 删除 单元 以 及 层 的 操作 (Aran 
等 2009) 。 于 是 ， 增 量 算法 在 这 个 状态 空间 搜索 ，( 按 照 某 种 次 序 ) 尝 试 这 些 操作 ， 并 根据 某 
种 优 劣 度量 (例如 复杂 度 和 验证 误差 的 某 种 组 合 ) 接 受 或 拒绝 。 男 一 个 例子 是 应 用 于 多 项 式 
回归 ， 其 中 高 阶 项 在 训练 阶段 自动 地 添加 /删除 ， 使 得 模型 的 复杂 度 与 数据 的 复杂 度 相 适应 。 
随 着 计算 费用 逐渐 降低 ， 这 种 自动 的 模型 选择 将 成 为 学 习 过 程 的 一 部 分 自动 地 进行 ， 而 不 需 
要 用 户 干预 。 


11.10 ”学 习 的 贝 叶 斯 观点 
贝 叶 斯 方法 在 训练 神经 网 络 时 将 参数 ( 即 连接 权重 w;) 看 作 取 自 先 验 分 布 P(wi) 的 随机 变 
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量 ， 并 计算 给 定数 据 的 后 验 概率 
_ p(X |w)p(w) 


p(w |x) = 一 一 一 一 一 (11.34) 
p(x) 
其 中 w 是 网 络 的 所 有 权重 的 向 量 。MAP 估计 w 为 后 验 的 众 数 
Wyp = arg max log p(w |X) (11. 35) 


取 式 (11.34) 的 对 数 ， 我 们 得 到 
log p(w |X) = log p(X |w) + logp(w) +C 
右边 的 第 一 项 是 对 数 似 然 ， 而 第 二 项 是 先 验 概率 的 对 数 。 如 果 权 重 是 独立 的 ， 并 且 先 验 概 率 
取 作 高 斯 分 布 N(0，1/24) 


2 
p(w) = Jew) 其 中 p(w;) = ovep | ~ 317s | (11. 36) 


则 MAP 佑 计 最 小 化 增 广 的 误差 函数 

E =E+Al|w|’ (11.37) 
HEP E 为 通常 的 分 类 或 回归 误差 ( 负 的 对 数 似 然 ) 。 这 个 增 广 误差 正 是 我 们 在 权重 衰减 (参见 
式 (11. 33) ) 中 使 用 的 误差 函数 。 使 用 较 大 的 和 意味 较 小 的 参数 可 变性 ， 对 它们 施加 更 大 的 
力量 ,使 之 接近 于 0， 并 且 更 多 地 考虑 先 验 而 不 是 数据 ; 如 果 A 较 小 ， 则 允许 较 大 的 参数 可 
变性 。 这 种 删除 不 必要 的 参数 的 方法 在 统计 学 中 称 作 岭 回 归 (ridge regression) 。 

这 是 使 用 代价 函数 、 结 合 对 数据 的 拟 合 和 模型 复杂 度 正 则 化 (regularization ) 的 另 一 个 例子 

代价 = 数据 错 拟 合 + 入 .复杂 度 (11.38) 

MacKay(1992a, b) 讨论 了 在 训练 多 层 感 知 器 时 使 用 贝 叶 斯 估计 。 我 们 将 在 第 14 章 更 详 
细 地 讨论 贝 叶 斯 估计 。 

经 验 表明 ， 训 练 后 ， 多 层 感知 器 的 大 部 分 权重 都 围绕 0 正 态 分 布 ， 证 明 使 用 权重 衰减 是 
正确 的 。 但是， 也 并 非 总 是 这 种 情况 。Nowlan 和 Hinton(1992 ) 提 出 了 软 权重 共享 (soft weight 
sharing) ， 其 中 权重 取 自 混合 高 斯 分 布 ， 允 许 它们 形成 多 个 而 不 是 一 个 徐 。 此 外 ， 这 些 簇 的 
中 心 可 以 在 任何 地 方 ， 而 不 必 在 0， 并且 具有 可 以 修改 的 方差 。 这 将 式 (11.36) 的 先 验 概率 
改变 成 MS2 个 高 斯 混合 


p(w;) = È, api(wi) (11.39) 


其 中 a 是 优先 权 , pj(w;) ~N(m,, s) 是 高 斯 分 量 。M 由 用 户 设置 ， 而 a m 和 s 从 数据 
中 学 习 。 在 训练 阶段 使 用 这 种 先 验 并 用 它 的 对 数 增 广 误差 函数 ， 权 重 收敛 以 降低 误差 ， 并且 
还 自动 地 分 组 以 提高 对 数 先 验 。 


11.11 维度 归 约 


在 多 层 感知 器 中 ， 如 果 隐 藏 单 元 数 小 于 输入 数 ， 则 第 一 层 执行 维度 归 约 。 这 种 归 约 形式 
和 隐藏 单元 生成 的 新 空间 依赖 于 MLP 的 训练 目的 。 如 果 MLP 用 来 分 类 ， 输 出 单元 紧 随 隐藏 
层 ， 则 定义 了 新 空间 并 且 学 习 该 映射 ， 以 降低 分 类 误差 (参见 图 11-18) 。 
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隐藏 表示 





隐藏 单元 2 











图 11-18 绘制 在 用 于 分 类 的 训练 后 的 MLP 的 两 个 隐藏 单元 的 空间 中 的 Optdigits 数据 。 只 显示 了 100 个 数 
据点 的 标号 。 该 MLP 具有 64 个 输入 ，2 个 隐藏 单元 和 10 个 输出 ， 具 有 80% 的 准确 率 。 由 于 S 
形 函 数 ， 隐 藏 单 元 的 值 在 0 和 1 之 间 ， 并 且 类 在 角落 附近 聚集 。 可 以 将 该 图 与 第 6 章 的 图 比 
较 。 第 6 章 的 图 在 相同 的 数据 集 上 使 用 其 他 维度 归 约 方法 绘制 
通过 分 析 权 重 ， 我 们 可 以 明白 MLP 是 做 什么 的 。 我 们 知道 当 两 个 向 量 相 等 时 点 积 最 大 。 
因此 ， 我 们 可 以 认为 每 个 隐藏 单元 定义 了 其 输入 权重 的 模板 ， 并 通过 分 析 这 些 模板 ， 我 们 可 
以 从 训练 后 的 MLP 中 提取 知识 。 如 果 输 入 是 规范 化 的 ， 则 权重 告诉 我 们 它们 的 相对 重要 性 。 
这 样 的 分 析 并 不 容易 ， 但 是 让 我 们 洞察 到 MLP 在 做 什么 ， 并 使 得 我 们 可 以 罕 视 黑箱 。 
一 种 有 趣 的 结构 是 自动 关联 器 (autoassociator) ( Cottrell 、Munro 和 Zipser 1987 ) 。 这 是 一 
种 MLP 结构 ， 其 中 输出 与 输入 一 样 多 ， 并 且 所 要 求 的 输出 被 定义 等 于 输入 (参见 图 11-19), 


Yı Ya Ya 





11-19 在 自动 关联 器 中 ， 输 出 与 输入 一 样 多 并 且 期 望 的 输出 是 输入 。 当 隐藏 单元 的 数目 小 于 
输入 的 数目 时 ， 则 MLP 被 训练 以 发 现 输入 在 隐藏 层 上 的 最 佳 编码 ， 实 现 维度 归 约 。 左 
边 ， 第 一 层 充 当 编 码 器 ， 而 第 二 层 充 当 解 码 器 。 右 边 ， 如 果 编 码 器 和 解码 器 是 具有 S 
形 隐 藏 单 元 的 多 层 感 知 器 ， 则 网 络 进行 非 线性 维度 归 约 
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为 了 能 够 在 输出 层 重 新 产生 输入 ，MLP 被 迫 找 出 输入 在 隐藏 层 的 最 佳 表示 。 当 隐藏 单元 数 
小 于 输入 数 时 ， 这 意味 着 维度 归 约 。 一 旦 训练 完成 ， 从 输入 到 隐藏 层 的 第 一 层 充当 编码 器 ， 
而 隐藏 单元 的 值 形 成 编码 表示 。 从 隐藏 单元 到 输出 单元 的 第 二 层 充 当 解码 器 ， 由 原 信和 号 的 编 
人 码 表示 重 构 原 信号 。 

已 经 证 明 ( Bourlard Fil Kamp 1988)， 具 有 一 个 隐藏 层 的 MLP 实现 主 成 分 分 析 (6.3 节 )， 
不 同 之 处 在 于 隐藏 单元 的 权重 不 是 使 用 特征 值 按 重要 性 排序 的 特征 向 量 , 但 是 它 与 五 个 主 
要 特征 向 量 生成 相同 的 空间 。 如 果 编 码 器 和 解码 器 不 是 一 层 ， 而 是 在 隐藏 单元 具有 S 形 非 线 
性 的 多 层 感 知 器 ， 则 编码 器 实现 非 线性 的 维度 归 约 。 

另 一 种 使 用 MLP 进行 维度 归 约 的 方法 是 通过 多 维 定 标 (6.5 节 )。Mao 和 Jain(1995 ) 展 
示 了 如 何 使 用 MLP 学 习 Sammon 映射 (Sammon mapping)。 回 忆 式 (6.29) ，Sammon 应 力 定 
义 为 





ElV) = > | g(x’ 10) -g 18) | - lx -x i 
z |x =x | 
一 个 具有 4 个 输入 ,有 个 隐藏 单元 和 <d 个 输出 单元 的 MLP 用 来 实现 g(x | 0), H 
d- 维 输入 映射 到 一 个 大 维 向 量 ， 其 中 0 对 应 于 MLP 的 权重 。 给 定 一 个 数据 集 X = 1x'|,， 我 
们 可 以 使 用 梯度 下 降 直接 最 小 化 Sammon 应 力 来 学 习 MLP( 即 g(x | 9) ) ， 使 得 大 维 表 示 之 间 
的 距离 与 原 空间 中 的 距离 尽 可 能 接近 。 


11.12 学 习 时 间 


(11. 40) 


到 目前 为 止 ， 我 们 一 直 关 注 输入 一 次 全 部 提供 的 情况 。 在 某 些 应 用 中 ， 输 入 是 时 间 数 
据 ， 我 们 需要 学 习 时 间 序 列 。 换 句 话说 ， 输 出 也 可 能 随时 间 变 化 。 例 子 有 

= 序列 识别 (sequence recognition) 。 这 是 把 给 定 的 序列 指派 到 多 个 类 中 的 一 个 。 语 音 识 
别 是 一 个 例子 ， 其 中 输入 信号 序列 是 口语 语音 ， 而 输出 是 词 的 编码 。 即 输入 随时 间 
变化 , 但 输出 不 随时 间 变 化 。 

= 序列 复制 (sequence reproduction)。 这 里 ， 在 看 到 给 定 序列 的 一 部 分 之 后 ， 系 统 将 预 
测 其 余部 分 。 时 间 序 列 产生 是 一 个 例子 ， 那 里 输入 是 给 定 的 ， 但 输出 是 变化 的 。 

四 ”时间 关联 (temporal association) 。 这 是 最 一 般 的 情况 ， 其 中 特定 的 输出 序列 作为 特定 
的 输入 序列 之 后 的 输出 。 输 入 和 输出 序列 可 能 不 同 。 这 里 ， 输 入 和 输出 都 随时 间 
变化 。 


11. 12. 1 时 间 延 迟 神经 网 络 


识别 时 间 序 列 的 最 简单 的 方法 是 把 它 转 换 成 空间 序列 。 然 后 可 以 利用 前 面 讨 论 的 任意 方 
法 进行 分 类 。 在 时 间 延 迟 神经 网 络 (time delay neural network ) 中 (Waibel 等 1989), ， 前 面 的 输 
入 被 延迟 ， 以 便 与 最 后 的 输入 同步 ， 一 起 作为 输入 提交 系统 (参见 图 11-20) 。 然 后 ， 使 用 后 
向 传播 训练 权重 。 为 了 提取 局 部 于 时 间 的 特征 ， 我 们 可 以 使 用 结构 化 的 连接 层 和 权重 共享 ， 
以 便 得 到 时 间 的 变换 不 变性 。 这 种 结构 的 主要 限制 是 我 们 滑 过 的 序列 的 时 间 窗 口 大 小 应 当 预 
先 固定 。 
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图 11-20 一 个 时 间 延 迟 网 络 。 长 度 为 了 的 时 间 窗 口中 的 输入 被 延迟 ， 
直到 我 们 可 以 将 所 有 了 个 输入 作为 输入 向 量 提供 给 MLP 


11. 12.2 递归 网 络 


在 递归 网 络 (recurrent network) 中 ， 除 了 前 馈 连 接 之 外 ， 单 元 具有 自 连 接 或 到 前 面 层 的 
连接 。 这 种 递归 性 充当 短期 记忆 ， 并 使 得 网 络 记 住 过 去 发 生 的 事 。 

在 大 部 分 情况 下 ， 我 们 使 用 部 分 递归 网 络 ， 其 中 有 限 多 个 递归 连接 被 添加 到 多 层 感 知 器 
中 (参见 图 11-21) 。 这 结合 了 多 层 感知 器 的 非 线性 逼近 能 力 和 递归 的 时 间 表 达能 力 的 优点 ， 
并 且 这 样 的 网 络 可 以 用 来 实现 三 种 时 间 关 联 任务 中 的 任何 一 种 。 还 可 以 在 递归 的 后 向 连接 中 
具有 隐藏 单元 ， 这 些 称 作 上 下 文 单元 (context unit) 。 给 定 具 体 应 用 ， 如 何 选择 最 佳 的 网 络 结 
构 尚 无 已 知 的 正式 结果 。 





b) c) 
图 11-21 具有 部 分 递归 的 MLP 的 例子 。 递 归 连 接 用 虚线 显示 : a) 隐藏 层 中 的 自 连 接 ，b) 输 出 层 中 的 自 
连接 ，e) 从 输出 层 到 隐藏 层 的 连接 。 还 可 以 有 这 些 情 况 的 组 合 

如 果 序 列 具 有 较 小 的 最 大 长 度 ， 则 可 以 使 用 按时 间 展 开 (unfolding in time) ， 将 任意 的 递 
归 网 络 转 换 成 等 价 的 前 馈 网 络 (参见 图 11-22 ) 。 为 不 同时 间 的 复制 创建 单独 的 单元 和 连接 。 
结果 网 络 可 以 用 后 向 传播 训练 ， 附 加 的 要 求 是 每 个 连接 的 所 有 复制 应 当 保持 相等 。 与 权重 共 
享 一 样 ， 方 法 是 按时 间 对 不 同 权 重 的 改变 求 和 ， 并 用 平均 值 更 新 权重 。 这 称 作 通过 时 间 后 向 
传播 (backpropagation through time ) ( Rumelhart, Hinton 和 Willams 1986b ) 。 这 种 方法 的 问题 
是 如 果 序 列 的 长 度 很 长 ， 则 存储 需求 量 很 大 。 实 时 递归 学 习 (real time recurrent leaming) 
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(Williams 和 Zipser 1989 ) 是 一 种 训练 递归 网 络 而 不 展开 的 算法 ， 并 且 具 有 可 以 用 于 任意 长 度 
序列 的 优点 。 





x? 





b) 
图 11-22 通过 时 间 后 向 传播 : a) 递 归 网 络 ，b)4 步 中 行为 相同 的 、 等 价 的 展开 网 络 


11. 13 ”注释 


人 工 神 经 网 络 的 研究 历史 与 数字 计算 机 一 样 长 。McCulloch 和 Pitts( 1943 ) 提出 了 人 工 神 
经 网 络 的 第 一 个 数学 模型 。Rosenblatt( 1962 ) 提出 了 感知 器 模型 和 学 习 算法 。Minsky 和 Pap- 
ert(1969) 指 出 了 单 层 感知 器 的 局 限 性 (例如 XOR 问题 ) ， 并 且 由 于 那 时 还 没有 训练 具有 隐藏 
层 的 多 层 感 知 器 的 算法 ， 因 此 除了 少数 地 方 之 外 ， 人 工 神 经 网 络 的 工作 几乎 停止 了 。 
Hopfield ( 1982 ) 的 文章 带 来 了 神经 网 络 的 复兴 。 随 后 出 现 了 并 行 分 布 处 理 (PDP) 研究 小 组 编 
写 的 两 卷 并 行 处 理 书 (Rumelhart 和 McClelland 1986 ) 。 看 起 来 ， 后 向 传播 几乎 同时 在 多 个 地 
方 被 发 明 ， 而 单 层 感知 器 的 局 限 性 也 不 复 存 在 。 

从 20 世纪 80 年 代 中 期 开始 ， 出 现 了 关于 人 工 神经 网 络 模型 的 大 量 研究 ,来 自 各 个 学 
科 : 物理 学 、 统 计 学 、 心 理学 、 认 知 科 学 、 神 经 系统 科学 、 语 言 学 ， 更 不 必 说 计算 机 科学 、 
电子 学 和 自 适 应 控制 了 。 或 许 ， 人 工 神经 网 络 研究 的 最 重要 贡献 是 这 种 沟通 不 同学 科 ， 特 别 
是 沟通 统计 学 与 工程 的 协同 。 感 谢 这 种 协同 ， 使 机 器 学 习 领 域 现在 得 以 确立 。 

现在 ， 该 领域 更 加 成 熟 ， 目 标 被 更 适当 、 更 好 地 确定 。 对 后 向 传播 的 批评 之 一 是 ， 从 生 
物 学 角度 讲 ， 它 几乎 是 不 可 能 的 ! 尽管 术语 “神经 网 络 ” 仍然 被 广泛 使 用 ， 但 是 通常 把 神经 
网 络 模型 理解 为 (例如 多 层 感 知 器 ) 非 参 数 估 计 方 法 ， 并 且 分 析 它 的 最 佳 方法 是 使 用 统计 学 
方法 。 

例如 ， 一 种 类 似 于 多 层 感知 器 的 统计 学 方法 是 投影 追踪 ( projection pursuit) ( Friedman 和 
Stuetzle 1981 ) ， 表 示 为 
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2, brC wax) 
不 同 的 是 每 个 “隐藏 单元 "都 具有 自己 的 (+), BEE MLP 中 ， 它 们 都 是 5S 型 函数 。 在 
第 12 章 ， 我 们 将 看 到 另 一 种 称 作 径 向 基 郴 数 的 神经 网 络 结构 ， 它 在 隐藏 单元 使 用 高 斯 
函数 。 

有 各 种 各 样 的 神经 网 络 教科 书 : 最 早 的 是 Hertz, Krogh 和 Palmer 1991 ， 仍 然 可 以 阅读 。 
Bishop 1995 重点 是 模式 识别 并 且 详 细 讨论 了 可 以 用 于 训练 的 各 种 优化 算法 ， 以 及 贝 叶 斯 方 
法 ,推广 了 权重 衰减 。Ripley 1996 从 统计 学 的 角度 分 析 了 神经 网 络 。 

人 工 神经 网 络 ， 例 如 多 层 感知 器 ， 具 有 各 种 各 样 的 成 功 应 用 。 除 了 成 功 地 用 于 自 适 应 控 
制 、 语 音 识 别 和 视频 之 外 ， 有 两 点 值得 注意 : Tesauro 的 TD- Gammon 程序 (Tesauro 1994 ) 使 
用 增强 学 习 ( 第 16 章 ) 训 练 多 层 感 知 器 ， 并 在 大 师 级 玩 西洋 双 陆 棋 。Pomerleau 的 ALVINN 是 
一 个 神经 网 络 ， 通 过 观察 驾驶 员 学习 5 分 钟 之 后 ， 它 可 以 自动 驾驶 厢 式 货车 ， 速 度 达 每 小 时 
20 英里 。 


11.14 习题 


. 给 出 一 个 可 以 计算 其 输入 的 NOT 的 感知 器 。 
. 给 出 一 个 可 以 计算 其 两 个 输入 的 NAND 的 感知 器 。 
. 给 出 一 个 可 以 计算 其 三 个 输入 的 奇偶 性 的 感知 器 。 
. 当 隐 藏 单元 使 用 tanh 函数 而 不 是 使 用 S 形 函 数 时 ， 推 导出 更 新 方程 。 使 用 事实 tanh’ = 
(1 -tanh’) , 
. 为 具有 两 个 隐藏 层 的 MLP 推导 更 新 方程 。 
. 考虑 一 个 具有 一 个 隐藏 层 的 MLP 结构 ， 其 中 还 存在 直接 从 输入 到 输出 单元 的 权重 。 解 释 
这 种 结构 何 时 是 有 益 的 ， 如 何 训练 它 。 
7. 奇偶 性 是 循环 移动 不 变 的 。 例 如 ,“0101” 和 “1010” 具 有 相同 的 奇偶 性 。 使 用 这 个 提示 ， 
提出 一 个 学 习 奇 偶 函 数 的 多 层 感 知 器 。 
8. 在 级 联 相关 中 ， 冻 结 前 面 已 经 存在 的 权重 有 何 优 点 ? 
9. 为 实现 最 小 化 Sammon 应 力 式 (11. 40) 的 Sammon 映射 的 MLP 推导 更 新 方程 。 
10. 11.6 节 我 们 讨论 了 一 个 具有 两 个 隐藏 层 的 MLP 如 何 实 现 分 段 常数 近似 。 证 明 ， 如 果 最 
后 一 层 的 权重 不 是 常数 而 是 输入 的 线性 函数 ， 则 我 们 可 以 实现 分 段 线性 近似 。 
11. 为 软 权重 共享 推导 更 新 方程 。 
12. 在 自动 关联 网 络 中 ， 如 何 决定 隐藏 单元 的 个 数 ? 
13. MLP 结构 的 增 量 学 习 可 以 看 作 状 态 空间 搜索 。 操 作 是 什么 ? 优 度 函 数 是 什么 ? 什么 类 型 
的 搜索 策略 是 合适 的 ? 以 这 种 方式 定义 ， 使 得 动态 结 点 创建 和 级 联 相关 都 是 特例 。 
14. 对 图 11. 22 给 出 的 MLP， 为 展开 网 络 推导 更 新 方程 。 
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局 部 模型 





我 们 继续 讨论 多 层 神 经 网 络 ， 考 察 第 一 层 包 含 局 部 接受 单元 的 模型 ， 这 些 局 部 接受 单元 
响应 输入 空间 局 部 区 域 中 的 实例 。 上 面 第 二 层 对 这 些 局 部 区 域 学 习 回归 或 分 类 函数 。 我 们 讨 
论 找 出 重要 局 部 区 域 ， 以 及 这 些 区 域 中 的 模型 的 学 习 方法 。 


12.1 引言 


进行 函数 逼近 的 一 种 方法 是 将 输入 空间 划分 成 局 部 小 片 ， 并 且 在 每 个 局 部 小 片 中 分 别 学 
习 拟 合 。 在 第 7 章 ， 我 们 讨论 了 聚 类 的 统计 学 方法 ,使 得 我 们 能 够 对 输入 实例 分 组 并 对 输入 
分 布 建 模 。 竞 争 方法 是 用 于 在 线 聚 类 的 神经 网 络 方法 。 本 章 ， 我们 讨论 -均值 的 在 线 版 本 
以 及 两 种 神经 网 络 扩展 : 自 适应 共鸣 理论 (ART) 和 自 组 织 影 射 (SOM ) 。 

然后 ， 我 们 讨论 一 旦 输入 局 部 化 ， 如 何 实现 监督 学 习 。 如 果 局 部 小 片上 的 拟 合 是 常量 ， 
则 该 技术 称 作 径 向 基 函 数 (RBF ) 网 络 ; 如 果 拟 合 是 输入 的 线性 函数 ， 则 称 作 混合 专家 技术 
( MoE) 。 我 们 讨论 回归 和 分 类 ， 并 与 第 11 章 讨 论 的 MLP 方法 进行 比较 。 


12.2 竞争 学 习 


在 第 7 章 ， 我 们 使 用 半 参 数 高 斯 混合 密度 ， 假 定 输入 来 自 个 高 斯 源 中 的 一 个 。 本 节 ， 我 
们 做 相同 的 假设 ,数据 中 存在 个 分 组 (或 秘 )， 但 是 我 们 的 方法 不 是 概率 方法 ， 因 为 我 们 不 将 
参数 模型 强加 在 数据 源 上 。 另 一 个 区 别 是 我 们 提出 的 学 习 方法 是 在 线 的 : 在 训练 阶段 我 们 并 没 
有 全 部 样本 ; 我 们 逐个 接收 实例 并 更 新 模型 参数 。 使 用 术语 竞争 学 习 (competitive leaming) 是 
因为 这 些 分 组 ， 更 确切 地 说 ， 代 表 这 些 分 组 的 单元 为 成 为 代表 实例 而 相互 竞争 。 这 种 方法 也 称 
ER AR winner-take-all); 就 像 一 个 分 组 获胜 并 得 到 更 新 ， 而 其 他 分 组 则 完全 不 更 新 一 样 。 

与 第 7 章 讨论 的 方法 相反 ， 这 些 方法 本 身 可 以 用 于 在 线 育 类。 在线 方法 具有 通常 的 优 
点 :(1) 不 需要 附加 的 存储 保存 整个 训练 集 ; (2) 每 步 更 新 简单 、 易 于 实现 (例如 用 硬件 实 
H); (3) 输 入 的 分 布 可 以 随时 间 而 改变 ， 并且 模型 可 以 自动 地 适应 这 些 改变 。 如 果 我 们 使 
用 批 处 理 算法 ， 我 们 将 需要 收集 新 样本 ， 并 且 从 头 开始 在 整个 样本 上 运行 批 处 理 方法 。 

从 12. 3 节 开始 ， 我 们 还 将 讨论 这 种 方法 如 何 后 跟 一 种 监督 方法 ， 来 学 习 回 归 和 分 类 问 
题 。 这 将 是 两 阶段 系统 ， 可 以 用 两 层 网 络 实现 ， 其 中 第 一 阶段 ( 层 ) 对 输入 密度 建 模 并 找到 
相应 的 局 部 模型 ， 而 第 二 阶段 是 产生 最 终 输出 的 局 部 模型 。 


12.2.1 在线- 均值 


在 式 (7.3) 中 ， 我 们 定义 重 构 误差 为 
EC ml O =D DO de ml (12.1) 
其 中 
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Te Me akei 


0 ”否则 
X= | 上 是 样本 ， 而 本 (=1，…, k) ERRO. WR m, 是 x 的 欧 氏 距离 最 接近 的 中 
Ò, Mo Hl BEAR m(l=1, =, 上) 竞争 ， 而 m; MAES, AA ery. 
-均值 的 批 处 理 算法 按 下 式 更 新 中 心 
> ox 
m; = Şe 
一 旦 使 用 式 (12.2) 选 取 获 胜 者 ， 它 将 最 小 化 式 (12.1)。 正 如 我 们 先前 看 到 的 ， 计算 b; 和 更 
新 m, 的 两 个 步骤 迭代 ， 直 到 收 伍 。 
通过 进行 随机 梯度 下 降 、 逐 个 考虑 实例 、 并 在 每 一 步 进 行 少许 更 新 而 不 忘记 先前 的 更 
新 ， 我 们 可 以 得 到 在 线 -均值 (online k-means)。 对 于 单个 实例 ， 重 构 误差 为 





(12. 3) 


E((m alx) => Dede m= SD LH my? 02.4) 
HP bi 的 定义 同 式 (12.2)。 对 上 式 使 用 梯度 下 降 ， 我 们 得 到 每 个 实例 x' 的 更 新 规则 : 
Am, =~ & = bila} - m) (12. 5) 


这 把 最 近 的 中 心 (其 5 =1) 向 输入 移动 一 个 因子 n HGH bd i) EF 0, FF AAT 
(参见 图 12-1) 。 批 处 理 过 程 也 可 以 通过 将 式 (12.5) 在 所 有 的 上 上 求 和 定义 。 与 任何 梯度 下 降 过 程 
一 样 ， 也 可 以 添加 一 个 动量 项 。 为 了 收敛 ,7 逐渐 减少 为 0。 但 是 ， 这 意味 稳定 性 与 可 塑性 的 两 
难 选择 (stability- plasticity dilemma); WR n m 0 递减 ， 则 网 络 变 得 稳定 ， 但 是 因为 更 新 变 得 太 
小 ， 我们 失去 了 对 随时 出 现 的 新 模式 的 适应 性 。 如 果 我 们 一 直 保 持 n 较 大 ， 则 m, 可 能 震荡 。 


A 
如 


© 


me 








x 


图 12-1 阴影 圆 是 中 心 ， 空 心 圆 是 输入 实例 。 所 均值 算法 的 在 线 
版 本 沿 方向 (x -m;) 将 最 近 的 中 心 移动 一 个 因子 n 


在 线 -均值 的 伪 代 码 在 图 12-2 中 。 这 是 图 7-3 的 批 处 理 算法 的 在 线 版 本 。 


初始 化 mi(i=1，…,k)， 例 如 为 个 随机 的 x 
Repeat 


For 随机 次 序 下 所 有 的 x ex 


i<—arg min, || x' — m; || 





m,<—m, +(x' -m;) 


Until m, 收敛 
图 12-2 在线 太 均值 算法 。 批 处 理 版 本 在 图 7-3 中 
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竞争 网 络 可 以 用 单 层 递归 网 络 实现 ， 如 图 12-3 所 示 。 输 入 层 包含 输入 向 量 x; 注意 没有 
偏 倚 单 元 。 输 出 单元 的 值 是 上 六， 并 且 它 们 是 感知 器 : 
b; = mx (12.6) 
然后 ,我们 需要 选择 最 大 的 b;,， 并 将 它 设置 为 1， 而 设置 其 他 b,(1z i 为 0。 如 果 我 们 
想 用 纯粹 的 神经 系统 方法 做 所 有 的 事 ， 即 使 用 并 发 操作 处 理 单元 网 络 ， 则 最 大 值 的 选择 可 以 
用 横向 抑制 (lateral inhibition) 实现 。 如 图 12-3 所 示 ， 每 个 单元 有 一 个 到 自身 的 兴奋 的 递归 连 
接 ( 即 具 有 正 权 重 ) 和 到 其 他 输出 单元 的 抑制 的 递归 连接 ( 即 具 有 负 权 重 ) 。 使 用 适当 的 非 线 
性 激励 函数 和 正 的 及 负 的 递归 权重 值 ， 这 样 的 网 络 在 某 些 迭 代 后 收敛 于 一 种 状态 ， 其 中 最 大 
值 变 成 1， 而 其 余 的 变 成 0( Grossberg 1980, Feldman 和 Ballard 1982) 。 





x, Xa 


图 12-3 胜 者 全 取 竞 争 神经 网 络 ， 它 是 在 输出 层 有 递归 连接 的 有 个 感知 器 的 网 络 。 虚 线 是 递归 
连接 ， 其 中 带 箭头 的 是 兴奋 的 ， 而 带 圆 点 的 是 抑制 的 。 答 出 层 的 每 个 单元 加 强 它 的 值 ， 
并 试图 超过 其 他 输出 。 在 这 些 递归 权重 的 适当 赋值 下 ， 最 大 的 抑制 了 其 他 所 有 的 。 这 具 
有 网 络 效 应 : 其 m; 最 接近 x 的 一 个 单元 以 其 b, 等 于 1 告终 ,而 其 他 所 有 的 b,(1 丫 为 0 


(12.6) 式 中 使 用 的 点 积 是 一 种 相似 性 度量 ， 并 且 我 们 在 5. 5 节 式 (5. 26) 中 看 到 ， 如 果 m, 
具有 相同 的 范 数 ， 则 具有 最 小 欧 氏 距离 | m; -x | 的 单元 与 具有 最 大 点 积 mix 的 单元 相同 。 

这 里 和 后 面 ， 当 我 们 讨论 其 他 竞争 方法 时 ， 我 们 使 用 欧 氏 距离 ， 但 是 我 们 应 当 记 住 ， 使 
用 欧 氏 距离 意味 所 有 输入 属性 具有 相同 的 方差 并 且 它 们 是 不 相关 的 。 如 果 不 是 这 种 情况 ， 则 
应 当 反 映 在 距离 度量 中 ( 即使 用 马 氏 距离 )， 或 者 在 使 用 欧 氏 距离 前 ， 在 预 处 理 阶段 做 适当 
的 规范 化 (例如 用 PCA). 

我 们 可 以 将 式 (12. 5) 改 写 为 


Ami, = nbix; 一 nbim, (12.7) 
让 我 们 回想 一 下 ，m;j 是 从 x Bb, 的 连接 的 权重 。 正 如 我 们 在 前 一 项 所 看 到 的 ， 更 新 
Ami, = nbix; (12.8) 


是 Hebbian 学 习 ( Hebbian learning) ， 它 将 更 新 定义 为 前 罕 触 与 后 突 触 单元 值 的 乘积 。 它 是 作 
为 神经 可 塑性 模型 提出 的 : 一 个 突 触 变 得 更 重要 ， 如 果 该 连接 的 前 后 单元 都 同时 冲动 ， 表 明 
它们 是 相关 的 。 然 而 ， IRI Hebbian 2 习 ， 权 重 的 增加 无 界 (x; 二 0)， 并 且 我 们 需要 第 二 种 
力量 ， 来 减少 未 更 新 的 权重 。 一 种 可 能 的 方法 是 显 式 地 规范 化 权重 ,使 得 | me; || = 1; 如 果 
Am;>0, Am, =0(1z i) ,一旦 我 们 把 m; 规范 化 为 单位 向 量 ， 则 mi 减少。 另 一 种 可 能 的 方 
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法 是 引进 权 误 减 项 (Oja 1982) ， 而 式 (12.7) 的 第 二 项 就 可 以 看 作 这 样 的 项 。Hertz ，Krogh 和 
Palmer( 1991) 更 详细 地 讨论 了 竞争 网 络 和 Hebbian 学 习 ， 并 且 展 示 这 种 网 络 如 何 学 习 做 
PCA, Mao 和 jain(1995 ) 讨 论 了 PCA 和 LDA 的 在 线 算法 。 

正如 我 们 在 第 7 章 所 看 到 的 ， 一 个 问题 是 避免 死 中 心 ， 即 存在 却 没 有 被 实际 利用 的 中 
心 。 在 竞争 网 络 ， 这 对 应 因为 被 初始 化 远离 任何 输入 而 从 来 未 能 赢得 竞争 的 中 心 。 存 在 多 种 
方法 避免 它 : 

1) 我 们 可 以 通过 随机 地 选择 输入 实例 来 初始 化 m;， 并 且 确 保 它们 从 有 数据 的 地 方 开 始 。 

2) 我 们 可 以 使 用 领导 者 聚 类 算法 并 且 逐 个 添加 单元 ， 总 是 将 它们 添加 在 需要 它们 的 地 
方 。 一 个 例子 是 ART 模型 ， 我 们 将 在 12. 2. 2 节 讨 论 。 

3) 更 新 时 不 仅 更 新 最 近 单 元 的 中 心 ， 而 且 也 更 新 某 些 其 他 中 心 。 随 着 它们 被 更 新 ， 它 
们 也 向 输入 移动 ， 逐 渐 移 向 输入 空间 存在 输入 的 部 分 ， 并 最 终 赢 得 竞争 。 一 个 例子 是 我 们 将 
在 12. 2. 3 节 讨 论 的 SOM。 

4) 另 一 种 可 能 引进 良心 (conscience ) 机 制 (Desieno 1988): 当前 赢得 竞争 的 单元 有 负 罪 
感 并 允许 其 他 单元 获胜 。 





12.2.2 自 适应 共鸣 理论 


在 计算 参数 之 前 ， 应 当知 道 并 指定 分 组 数 k。 男 一 种 方法 是 增 量 的 (incremental) ， 从 单个 
分 组 开始 ， 并 在 需要 时 添加 新 的 分 组 。 作 为 增 量 算法 的 一 个 例子 ， 我 们 讨论 自 适 应 共鸣 理论 
(adaptive resonance theory，ART) 算 法 (Carpenter 和 Grossberg 1988 ) 。 在 ART 中 ， 给 定 一 个 和 输 
人 人 ， 所 有 的 输出 单元 计算 它们 的 值 ， 并 且 选 择 与 输入 最 相似 的 单元 。 如 果 使 用 如 式 (12.6) 中 的 
点 积 ， 则 它 是 具有 最 大 值 的 单元 ; 如果 使 用 欧 氏 距离 ， 则 它 是 具有 最 小 值 的 单元 。 

让 我 们 假设 我 们 使 用 欧 氏 距离 。 如 果 最 小 值 小 于 某 个 称 作 警戒 值 (vigilance) 的 国 值 ， 则 
像 在 线 -均值 一 样 进行 更 新 。 如 果 距 离 大 于 警戒 值 ， 则 增加 一 个 新 的 输出 单元 ,并且 它 的 
中 心 用 该 实例 初始 化 。 这 定义 了 一 个 超 球 ， 其 半径 由 定义 每 个 单元 范围 体积 的 警戒 值 给 定 。 
当 我 们 具有 一 个 不 能 被 任何 单元 覆盖 的 输入 时 ， 我们 就 增加 一 个 新 单元 (参见 图 12-4) 。 


ad K _ i ; 








图 12-4 从 xz 到 最 近 中 心 的 距离 小 于 警戒 值 p， 中 心 像 在 线 -均值 一 样 进行 更 新 。 
然而 ,x 与 任何 中 心 都 不 足够 近 ， 应 当 在 该 位 置 创建 一 个 新 的 分 组 
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记 和 警戒 值 为 p， 在 每 次 更 新 我 们 使 用 下 式 : 


k 
bi = |m; =x" || = min || m, - x' || (12.9) 
B =z wA b, > p 
Am, = n(x 一 m;) 否则 


EER LB re BOS Oh Fe eS ERE EB ee EL, ARS Wk RE 
离 、 误 差 像 式 (12.4) 那 样 定义 ， 则 这 表明 每 个 实例 允许 的 最 大 重 构 误差 为 警戒 值 的 平方 。 


12.2.3 自 组 织 映射 


避免 死 单元 的 一 种 方法 是 不 仅 更 新 获胜 者 ， 而 且 也 更 新 某 些 其 他 单元 。 在 Kohonen 
(1990，1995 ) 提 出 的 自 组 织 映射 (self-organizing map, SOM), oc Pen BO, fim, PRS i) az 
义 单 元 的 邻 域 (neighborhood) 。 当 m, 是 最 近 的 中 心 时 ， 除 m, 更 新 之 外 ， 还 更 新 它 的 近邻 。 
例如 ， 如 果 邻 域 大 小 为 2， 则 m;_，，m;_1，mi,i1，mi;s 也 更 新 ,但 是 随 邻 域 的 加 大 ， 使 用 较 
小 的 权重 。 如 果 i 是 最 近 中 心 的 下 标 ， 则 中 心 按 下 式 更 新 
Am, = ne(1,i) (x' - m,) (12. 10) 
Hp el, 让 是 邻 域 函 数 。 当 1=i 时 e(1, i) =1， 并 随 |1-:| 增 大 而 减 小 。 例 如 ， 定 义 它 为 高 
WRIN (i, o): 
1 (I - i)’ 
e(l,i) = aa | E | 
为 了 收敛 ， 邻 域 函 数 的 支 集 随 时 间 减 小 ， 例 如 o 减 小 ， 最 终 只 有 一 个 获胜 者 被 更 新 。 
由 于 邻 域 单元 也 向 输入 移动 ， 我 们 避免 了 死 单元 ， 因 为 从 它们 的 近邻 朋友 得 到 一 点 初始 
帮助 之 后 ， 稍 后 的 某 个 时 候 它 们 将 赢得 竞争 (参见 图 12-5) 。 


Xp 





(12. 11) 











x; 

图 12-5 在 SOM 中 ,不 仅 最 近 的 单元 ， 而且 还 有 它 的 近邻 (就 下 标 而 言 ) 都 向 输入 移动 。 这 里 ， 
邻 域 为 1; m, 和 它 的 1- 近 邻 被 更 新 。 注 意 ， 这 里 加, 远离 m, 但 是 随 着 它 与 m, 一 起 
更 新 ， 并 且 当 mi, ,是 胜 者 时 m; 也 被 更 新 ， 它 们 最 终 也 成 为 输入 空间 的 近邻 


更 新 近邻 具有 如 下 效果 : 即使 中 心 被 随机 初始 化 ， 因 为 它们 一 起 朝 着 相同 的 输入 移动 ， 
因此 一 旦 系统 收敛 ,具有 相同 邻近 下 标的 单元 也 将 是 输入 空间 中 的 近邻 。 
在 大 部 分 应 用 中 ， 单 元 被 组 织 成 二 维 映射 (map)。 即 每 个 单元 将 具有 两 个 下 标 miv， 并 
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且 邻 域 定义 在 两 个 维 上 。 如 果 m 是 最 近 的 中 心 ， 则 中 心 按 下 式 更 新 

Am,, = ne(k,l,i,j)(x' — mi) (12. 12) 
其 中 邻 域 函 数 现在 是 二 维 的 。 收 敛 后 ， 这 形成 了 原 d- 维 输入 空间 的 二 维 地 形 图 (topographical 
map) 。 该 图 包含 了 空间 的 高 密度 部 分 的 许多 单元 ， ine dy a deh ti 
何 单元 。 一 旦 该 图 收敛 ， 则 原 空间 靠近 的 输入 被 映射 到 该 图 中 靠近 的 单元 。 从 这 种 角度 讲 ， 广 
图 可 以 解释 为 做 一 个 非 线 性 形式 的 多 维 缩放 ， 将 原来 的 x 空间 映射 到 二 维 (i, j) 上 。 i 
如 果 映 射 是 一 维 的 ， 则 单元 放置 在 输入 空间 最 大 密度 的 曲线 上 ， 作 为 主 曲线 (principal curve ) 。 


12.3 BARAK 


在 隐藏 单元 使 用 点 积 的 多 层 感 知 器 中 (第 11 章 ) ， 每 一 个 隐藏 单元 定义 了 一 个 超 平面 ， 并 
且 使 用 S 形 非 线性 ， 隐 藏 单元 具有 0 和 1 之 间 的 值 ， eee aa. 每 个 
超 平面 将 输入 空间 一 分 为 二 ， 并 且 通 常 对 于 给 定 的 输入 ， 许 多 隐藏 单元 都 具有 非 零 输出 。 这 称 
作 分 布 表示 ( distributed representation) ， 因 为 输入 被 许多 隐藏 单元 的 同时 激活 重新 编码 。 

另 一 种 可 能 性 是 局 部 表示 (local representation) ， 其 中 对 于 给 定 的 输入 ， 只 有 一 个 或 几 个 
单元 是 活跃 的 。 就 像 这 些 局 部 调整 (locally tuned) 的 单元 在 它们 之 间 划分 输入 空 s 间 并 且 只 对 
某 些 输入 是 有 选择 的 。 输 入 空间 的 单元 中 具有 非 零 响 应 的 部 分 称 作 接 受 域 ( receptive field) 。 
输入 空间 则 被 这 样 的 单元 覆盖 。 

在 大 脑 皮层 的 多 处 发 现 了 具有 这 种 响应 特征 的 神经 元 。 例 如 ， 视 党 皮层 细胞 对 刺激 有 选择 
地 响应 ， 既 局 部 于 视网膜 的 位 置 ， 又 局 部 于 视觉 方向 的 角度 。 这 种 局 部 调整 的 细胞 通常 排列 在 
大 脑 皮层 图 上 ， 那 里 像 在 SOM 中 一 样 ， petag E neta 

局 部 性 意味 有 一 个 距离 函数 ， 度 量 给 定 输 入 x 和 单元 h 的 位 置 m 的 相似 度 。 通 常 ， 
度量 取 欧 氏 距 离 La me。 选取 响应 函数 使 得 当 x =m, 时 取 最 大 值 ， 并 且 随 着 e 
性 减 小 而 减少 。 通常， 我 们 使 用 高 斯 函数 (参见 图 12-6): 


aS. | x" -m, I? 
pi = op | ~ — 3 — (12. 13) 
h 











4 3 240 0 12 3 aS 


图 12-6 用 于 径 向 基 函 数 网 络 的 钟 形 函 数 的 一 维 形式 。 这 个 函数 m=0，s =1。 它 像 高 斯 函数 但 不 是 密度 
函数 ; 其 积分 不 等 于 1。 在 (m -3s，m +3s) 中 它 非 零 ， 但 是 更 保守 的 区 间 是 (m -2s,，m +2s) 
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严格 地 说 ， 这 不 是 高 斯 密度 ， 但 是 我 们 还 是 使 用 了 相同 的 名 字 。mij A s, 分 别 表示 局 部 单 
元 j 的 中 心 和 展 宽 ， 这 样 定 义 了 一 个 径 向 对 称 的 基 函 数 。 以 使 用 更 复杂 的 模型 为 代价 ， 我 们 可 
以 使 用 椭 球 ， 不 同 的 维 上 具有 不 同 的 展 宽 ， 甚 至 使 用 马 氏 距离 ， 允 许 相 关 的 输入 。 

使 用 局 部 基 范 数 的 基本 思想 是 ， 在 输入 数据 中 存在 一 些 实例 分 组 或 徐 ， 而 对 每 个 徐 ， 我 
们 定义 一 个 基 范 数 p; ， 当 实例 x' SETI h 时 它 不 为 零 。 我 们 可 以 使 用 12. 2 节 讨 论 的 任意 在 
线 竞争 方法 来 找 出 中 心 m,。 有 一 种 简单 、 有 效 的 启发 式 方法 来 找 出 展 宽 ; 一 旦 我 们 求 出 中 
心 ， 我 们 就 可 以 找 出 徐 中 的 最 远 实 例 ， 并 令 s, 为 它 到 簇 中 心 距离 的 一 半 。 我 们 本 来 也 可 以 
使 用 三 分 之 一 ,但 是 我 们 宁愿 保守 一 点 。 我 们 还 可 以 使 用 统计 肾 类 方法 找 出 簇 参 数 。 例 如 ， 
在 高 斯 混合 分 布 上 使 用 第 7 章 讨论 的 EM 方法 ， 找 出 簇 参 数 均值 、 方 差 (和 协 方差 ) 。 

下 (六 =1，…， 百 ) 定 义 了 一 个 新 的 正 维 室 间 ， 并 且 形 成 关 的 新 表示 。 我 们 也 可 以 使 用 
b, 式 (12.2) 对 输入 编码 ， 但 是 5 A 0/1; pr 具有 附加 的 优点 ， 它 用 (0，1 ) 中 的 值 对 点 到 其 
中 心 的 距离 编码 。 该 值 衰减 到 0 的 速度 依赖 于 s;。 图 12-7 给 出 了 一 个 例子 ， 并 且 将 这 种 局 
部 表示 与 多 层 感知 器 使 用 的 分 布 表 示 进 行 比较 。 由 于 高 斯 分 布 都 是 局 部 的 ， 因 此 与 使 用 分 布 
人 是 高 维 的 时 尤其 如 此 。 


w 











空间 po Pr» Po 中 的 局 部 表示 空间 Ch,» hy) 中 的 分 布 表示 


x“: (1.0, 0.0, 0.0) x= C1.0, 1.0) 
x*: (0.0, 0.0, 1.0) x’: (0.0, 1.0) 
x (1.0, 1.0, 0.0) x: (1.0, 0.0) 


图 12-7 ”局 部 表示 与 分 布 表示 之 间 的 差别 。 值 是 硬 的 071 值 。 我 们 可 以 使 用 0，1) 之 间 的 软 值得 到 更 
多 信息 编码 。 在 局 部 表示 中 ， 用 高 斯 RBF 做 ， 它 使 用 到 中 心 m; 的 距离 ， 而 在 分 布 表示 中 ， 
使 用 S 形 函 数 做 ， 它 使 用 到 超 平面 w 的 距离 


在 监督 学 习 的 情况 下 ， 我 们 可 以 使 用 这 种 新 的 局 部 表示 作为 输入 。 如 果 我 们 使 用 感知 
器 ， 则 我 们 有 
y = Ý wp, + wo (12. 14) 
Eh H SESE PR AI O ARAPE a A HH HK (radial basis function, RBF ) 网络 (Broom- 
head 和 Lowe 1988; Moody 和 Darken 1989 ) 。 通 常 ， 人 们 不 使 用 多 于 一 个 高 斯 单元 层 的 RBF 
网 络 。H 是 复杂 度 参 数 ， 像 多 层 感知 器 的 隐藏 单元 数 一 样 。 之 前 ， 当 它 对 应 非 监 督学 习 中 的 
中 心 数 时 ， RIH k RIRES 
这 里 ,我 们 看 到 使 用 p, 而 不 是 使 用 b, 的 优点 。 由 于 b, 是 0/1， 如 果 式 (12. 14) 使 用 6 而 
不 是 p,， 则 它 将 给 出 分 段 常量 近似 ， 在 单元 区 域 的 边界 不 连续 。p, 值 是 软 的 并 导致 光滑 的 近 
似 ， 从 一 个 区 域 到 另 一 个 时 取 加 权 平 均 。 我 们 可 以 容易 地 看 到 这 种 网 络 是 一 种 普 适 近似 ， 因 为 
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给 定 足够 多 的 单元 ， 它 可 以 以 期 望 的 精度 逼近 任意 函数 。 对 于 我 们 期 望 的 精度 ， 我 们 可 以 形成 
一 个 输入 空间 的 网 格 ， 实 际 上 对 每 个 网 格 定 义 一 个 单元 ， 并 设置 它 的 权重 w, 为 期 望 的 输出 值 。 

这 种 结构 与 非 参数 估计 ( 例如 我 们 在 第 8 章 所 看 到 的 Parzen 窗口 ) ARAN, FFA p, 可 以 
看 作 核 函数 。 不 同 之 处 在 于 我 们 没有 整个 训练 集 上 的 核 函 数 ， 而 是 使 用 聚 类 方法 将 它们 分 
组 ,使 用 更 少 的 核 函数 。 单 元 数 是 复杂 度 参数 ， 在 简洁 性 和 准确 性 之 间 平 衡 。 使 用 更 多 
单元 ， 我 们 就 更 好 地 逼近 训练 数据 ， 但 是 我 们 得 到 更 复杂 的 模型 并 有 过 分 拟 合 的 风险 ; 太 少 
可 能 拟 合 不 足 。 最 佳 值 仍然 用 交叉 验证 确定 。 

一 旦 给 定 和 国定 m, Ms, pi 也 是 固定 的 。 然 后 可 以 容易 地 批 处 理 或 在 线 地 训练 ws。 对 
于 回归 ， 这 是 一 个 线性 回归 模型 (mm 作为 输入 ) ， 并 且 w 可 以 解析 地 求解 ， 而 不 需要 迭代 
(参见 4.6 节 ) 。 对 于 分 类 ， 我 们 需要 借助 于 迭代 过 程 。 我 们 在 第 10 章 讨论 过 这 些 学 习 方法 ， 
此 处 不 再 更 述 。 

这 里 ， 我 们 要 做 的 是 一 个 两 阶段 过 程 : 我 们 使 用 非 监督 方法 确定 中 心 ， 然 后 在 其 上 构建 
监督 层 。 这 称 作 混合 学 习 (hybrid leaming) 。 我 们 还 可 以 用 监督 的 方式 学 习 所 有 的 参数 ， 包 
fim, 和 se。 式 (12. 13) 的 径 向 基 函 数 是 可 微 的 ， 并 且 我 们 可 以 后 向 传播 ， 就 像 我 们 在 多 层 
感知 器 后 向 传播 ， 更 新 第 一 层 的 权重 一 样 。 该 结构 类 似 于 多 层 感 知 器 ， 以 户 为 隐藏 单元 ， 
m, Als, 作为 第 一 层 的 参数 ， 高 斯 函数 作为 隐藏 层 的 激励 函数 ， 而 wi 作为 第 二 个 隐藏 层 的 
权重 ( 见 图 12-8)。 





Xl x, Xa 
图 12-8 RBF 网 络 ， 其 中 p 是 使 用 钟 形 激励 函数 的 隐藏 单元 ， 
m,, s 是 第 一 层 的 参数 ， 而 w 是 第 二 层 的 权重 


但 是 ， 在 我 们 讨论 这 些 之 前 ， 我 们 应 当 注 意 到 训练 两 层 网 络 很 慢 。 混 合 模型 一 次 训练 一 
层 ， 因 而 比较 快 。 另 一 种 技术 ， 称 作 锚 (anchor) 方 法 ， 将 中 心 设置 为 从 训练 集 随 机 选取 的 模 
式 ， 而 不 进一步 更 新 。 如 果 有 许多 单元 ， 这 足以 满足 需要 。 

另 一 方面 ， 精 度 通常 没有 使 用 完全 监督 方法 高 。 考 虑 输入 是 均匀 分 布 的 情况 。 上 -均值 聚 
类 均匀 地 安放 单元 。 如 果 函 数 在 一 小 部 分 空间 稍 有 变化 ， 则 更 好 的 想法 是 将 更 多 单元 安放 在 
函数 变化 快 的 地 方 ， 以 便 使 误差 尽 可 能 小 ; 这 正 是 完全 监督 方法 所 要 做 的 。 
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让 我 们 讨论 如 何在 完全 监督 方式 下 训练 所 有 参数 。 方 法 与 用 于 多 层 感 知 器 的 后 向 传播 一 
样 。 让 我 们 考虑 具有 多 个 输出 的 回归 。 批 处 理 的 误差 为 


E(tmisss walis lO => DO - 9)? (12. 15) 
其 中 
a 
y = 5 winph + Wy (12. 16) 
使 用 梯度 下 降 ， 我 们 得 到 第 二 层 权 重 的 如 下 更 新 规则 : 
Aw, = >) (ri 4) Pi (12. 17) 


这 是 通常 的 感知 器 更 新 规则 ， 其 中 p, ERMA LIT, p, 交 春 不 多 ， 并 旦 在 每 次 迭代 
H, RADEK p 非 零 ， 并 且 只 有 它们 的 wi 被 更 新 。 这 就 是 为 什么 RBF 网 络 学 习 非 常 快 ， 
并 且 比 使 用 分 布 表示 的 多 层 感知 吾 快 的 原因 。 


类 似 地 ， 我 们 可 以 用 后 向 传播 ( 链 规 则 ) 得 到 中 心 和 展 宽 的 更 新 方程 ; 
amy = 9 [Diy ws Jo, E (12. 18) 
As, = 7 >) | È i -ywa |p ee (12. 19) 


让 我 们 比较 式 (12. 18) 和 式 (12.5): 首先 ， 这 里 我 们 使 用 p, MDE br, RRA 
近 的 单元 而 且 所 有 的 单元 都 根据 它们 的 中 心 和 展 宽 而 被 更 新 。 其 次 ， 这 里 更 新 是 监督 的 ， 并 
且 包 含 后 向 传播 的 误差 项 。 更 新 不 仅 依 赖 于 输入 ， 而 且 依 赖 证 最 终 的 误差 (ri -y) 、 单 元 对 
输出 的 影响 wj,、 单 元 的 活性 p, 和 输入 (zx -mi)。 

对 于 分 类 ， 我 们 有 


exp | > Winph + Wo | 
a 
bY exp | = WypPp + Wy | 
I F 





Yi (12. 20) 


RREH 
E({mM,,Sh walis IX) =- $ 》 r log y; (12.21) 

使 用 梯度 下 降 ， 可 以 类 似 地 导出 更 新 规则 (习题 3) 。 

让 我 们 再 考虑 式 (12. 14): 对 于 任意 输入 ， 如 果 p, 非 零 ， 则 它 对 输出 的 责 献 为 ww。 它 
的 贡献 是 常量 拟 合 ， 由 wi 给 定 。 通 常 ， 高 斯 函数 交 欠 不 多 ， 并 且 它 们 之 中 的 一 或 两 个 具有 
AEA p, 值 。 在 任何 情况 下 ， 只 有 少数 单元 对 输出 有 贡献 。w。 是 偏 移 常 量 ， 加 到 活跃 ( 非 
零 ) 单 元 的 加 权 和 上 。 我 们 还 看 到 如 果 所 有 的 p, 均 为 0， 则 y=wo。 这 样 ， 我 们 可 以 把 wo 看 
作 是 y 的 缺 省 值 : 如 果 没 有 高 斯 单元 是 活跃 的 ， 则 输出 由 该 值 给 定 。 因 此 ， 有 可 能 使 得 该 
“默认 模型 " 具有 更 强 的 能 力 。 例 如 ， 我 们 可 以 令 


y = È wp, + v'x' + 0, (12. 22) 
在 这 种 情况 下 ， 默 认 模 型 是 线性 的 : wx +v。。 当 它们 非 零 时 ， 高 斯 模型 好 像 是 “例外 ” 


ww ai bbt. com DOOO000 








294 








182 第 12 章 





并 修改 输出 ， 补 偿 期 望 输出 与 默认 输出 之 差 。 这 种 模型 可 以 以 监督 方式 训练 ， 而 默认 模型 与 
w, 一 起 训练 (习题 4) 我 们 将 在 17. 11 节 讨 论 类 似 的 模型 级 联 ( cascading) ， 其 中 我 们 将 看 到 
两 个 学 习 器 的 组 合 ， 一 个 是 一 般 规 则 ， 另 一 个 由 一 组 异常 组 成 。 


12.4 结合 基于 规则 的 知识 


如 果 我 们 能 够 结合 先 验 知识 (prior knowledge) 来 初始 化 ， 则 任何 学 习 系 统 的 训练 都 可 以 
更 简单 。 例 如 ， 先 验 知 识 可 以 以 一 组 规则 的 形式 提供 ， 指 定 该 模型 (例如 RBF 网 络 ) 必须 学 
习 的 输入 /输出 映射。 这 种 情况 在 业界 和 医学 应 用 中 经 常 出 现 ， 在 应 用 中 规则 可 以 由 专家 提 
供 。 类 似 地 ， 一 旦 网 络 被 训练 ， 就 可 以 从 中 提取 规则 ， 使 得 问题 的 解 更 容易 理解 。 

包含 先 验 知识 还 有 其 他 优点 。 如 果 需 要 将 网 络 外 推 到 输入 空间 中 从 未 见 到 训练 数据 的 区 
域 ， 可 以 依赖 这 种 先 验 知识 。 此 外 ， 在 许多 控制 应 用 中 ， 需 要 网 络 一 开始 就 做 出 合理 的 预 
测 。 在 它 看 到 足够 多 的 训练 数据 之 前 ， 必 须 主要 依赖 这 种 先 验 知识 。 

在 许多 应 用 中 ， 我 们 通常 被 告知 一 些 基本 规则 ， 开 始 需 要 遵循 ， 而 后 通过 经 验 来 精炼 
和 改变 。 我 们 关于 问题 的 初始 知识 越 好 ， 我 们 得 到 好 性 能 就 越 快 ， 并 且 需 要 的 训练 就 

少 。 

使 用 RBF 网 络 ， 这 种 包含 先 验 知识 或 提取 学 习 的 知识 很 容易 做 ， 因 为 单元 是 局 部 的 。 

这 使 得 规则 提取 (rule extraction) 更 容易 (Tresp、Hollatz 和 Ahmad 1997 ) 。 一 个 例子 是 
IF((x ~ a@)AND(x, ~ 6))OR(«, ~ c) THEN y = 0.1 (12. 23) 

其 中 x ~a 意 指 “> 约 等 于 a”。 在 RBF 框架 中 ， 这 个 规则 被 两 个 高 斯 单元 编码 为 
a -em[- SE], 其 中 w = 0.1 


2 
(x, =)? 
z Hw, = 0.1 

“ 约 等 于 "被 一 个 高 斯 函数 建 模 ， 这 里 中 心 是 理想 值 ， 展 宽 表示 理想 值 周 围 允许 的 差 。 
合 取 是 两 个 一 元 高 斯 函数 的 积 ， 是 二 元 高 斯 函数 。 于 是 ， 第 一 个 乘积 项 可 以 被 二 维 ( 即 x = 
[x ，xa ] ) 高 斯 函数 处 理 ， 其 中 心 在 (a，5) ， 而 在 两 个 维 上 的 展 宽 由 s, Als, 给 定 。 析 取 被 两 
个 单独 的 高 斯 函数 建 模 ， 每 个 处 理 一 个 析 取 项 。 

给 定 标记 的 训练 数据 ， 使 用 较 小 的 n 值 ， 这 样 构 造 的 RBF 网 络 的 参数 在 初始 构造 后 可 
以 微调 。 

这 种 表示 方法 与 模糊 逻辑 方法 有 关 ， 那 里 式 (12. 23) 称 作 模糊 规则 (fuzzy rule) 。 检 查 近 
{WAS YS Fa Wr HE PR BMT Ny HE HA EZ, HK A Bh BK (fuzzy membership function ) ( Berthold 1999; 
Cherkassky 和 Mulier 1998) 。 


12.5 Aes HL 


在 式 (12. 14) 中 ， 对 于 一 个 输入 ， 可 能 所 有 的 记 都 为 0。 在 某 些 应 用 中 ， 我 们 可 能 希望 
有 一 个 规范 化 步 又， 确保 局 部 单元 值 的 和 为 1， 从 而 确保 对 于 任何 输入 ， 至 少 存在 一 个 非 零 
单元 : 


pi = exp| - 
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pa _ exp[- lx -m,| /21] 





hae = aie (12.24) [295] 
Sp eel lx -m 77257) 
图 12-9 给 出 了 一 个 例子 。 取 ps 为 p(x lh), g 对 应 x 属于 单元 h 的 后 验 概率 p(h |x). 
这 就 像 单元 在 它们 之 间 划分 输入 空间 。 我 们 可 以 想象 g, 本 身 是 分 类 器 ， 为 给 定 的 输入 选择 
响应 单元 。 这 种 分 类 基于 距离 来 做 ， 就 像 在 有 参 高 斯 分 类 器 中 那样 (第 5 章 ) 。 


~/: =F 1 fe 


0.9} 


0.87 


0.77 


0.67 


0.5} 











0 os 1 18 2 25 3 35 4 45 5 
图 12-9 规范 化 前 ( - ) 和 规范 化 后 ( - - ) 的 三 个 高 斯 分 布 ， 其 中 心 用 ” * "标记 。 


注意 一 个 单元 的 非 零 区 域 还 依赖 其 他 单元 的 位 置 。 如 果 展 宽 较 小 ， 则 规 
范 化 实现 较 硬 的 划分 ; 使 用 较 大 的 展 宽 ， 单 元 重合 更 多 


输出 是 加 权 和 


yi = È wagi (12. 25) 
这 里 不 需要 偏 倚 项 ， 因 为 对 于 每 个 x， 至 少 有 一 个 非 零 的 gr 。 使 用 吕 而 不 是 p, 并 不 引进 附 
加 的 参数 ; 它 只 是 将 单元 联系 在 一 起 : p 仅 依 赖 于 m, 和 s， ,但 是 由 于 规范 化 ，g 依赖 于 所 
有 单元 的 中 心 和 展 宽 。 
对 于 回归 ， 使 用 梯度 下 降 ， 我 们 有 如 下 更 新 规则 : 
Awa = 12) (ry) (12. 26) 


t t t t ) 一 ;) 
Am, =n), E Oi -yD (wa -yg Sw (12.27) 


h 


可 以 类 似 地 导出 % 的 更 新 规则 和 用 于 分 类 的 规则 。 让 我 们 把 这 些 规则 与 具有 非 规范 化 
高 斯 分 布 的 RBF 的 规则 式 (12. 17 ) 进行 比较 。 这 里 ， 我 们 使 用 gr 而 不 是 p, ， 这 使 得 单元 的 
更 新 不 仅 依赖 于 它 自 己 的 参数 ， 而 且 也 依赖 于 其 他 单元 的 中 心 和 展 宽 。 比 较 式 (12. 27 ) 和 
式 (12. 18)， 我 们 看 到 我 们 有 (ws, - %) 而 不 是 wx ， 这 展示 了 规范 化 在 输出 上 的 作用 。“ 负 
责任 ”的 单元 希望 降低 它 的 输出 ww 和 最 终 输出 yi 之 间 的 差 ， 正 比 于 它 的 责任 8o 
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12.6 竞争 的 基 函 数 


正如 我 们 迄今 为 止 所 看 到 的 ,在 RBF 网 络 中 ， 最 终 的 输出 被 局 部 单元 贡献 的 加 权 和 所 
确定 。 尽 管 单元 是 局 部 的 ， 但 是 重要 的 是 最 终 的 加 权 和 ， 并 且 我 们 希望 使 它 与 要 求 的 输出 尽 
可 能 接近 。 例 如 对 于 回归 ， 我 们 最 小 化 式 (12. 15) ， 这 基于 概率 模型 

Pilz) = I] zzl- we ] 
其 中 x 由 式 (12. 16) ( 非 规范 化 的 ) 或 式 (12.25) (规范 化 的 ) 给 出 。 在 两 种 情况 下 ， 我 们 都 可 
以 将 模型 看 作协 同 ( cooperative ) 模型 ， 因 为 单元 协同 操作 ， 以 便 产 生 最 终 的 输出 y;。 现 在 ， 
我 们 讨论 使 用 竞争 基 函数 (competitive basis function) 的 方法 ， 其 中 我 们 假定 输出 取 自 混合 
模型 








(12. 28) 


pir |x) = F p(h|x')p(r' |h,x') (12. 29) 


plih |x ERAH, pir |h, x') 是 产生 输出 的 混合 分 支 ， 如 果 该 分 支 被 选择 的 话 。 注 意 
这 两 项 都 依赖 于 输入 x。 


混合 比例 为 
thle) = (x |h)p(h) (12. 30) 
上 d p(x |p) 
t 2 2 
be a, exp[ — || x' - m, || /2s] (12. 31) 





7 È a, exp[ - || x‘ - m, || 2/2s?] 
一 般 ， 我 们 假定 a, 相等 并 忽略 它们 。 让 我 们 先 考虑 回归 ， 其 中 分 支 是 高 斯 的 。 在 
式 (12.28) ， 噪 声 被 加 到 加 权 和 上 ; 这 里 一 个 分 支 被 选中 ， 并 且 噪 声 加 到 它 的 输出 yi, Eo 
使 用 式 (12. 29) 的 混合 模型 ， 对 数 似 然 是 
L( [MSh win | i |x) = 2 log $, ghexp [ a +z (r; = yn)? | (12. 32) 
HP ya =w EHT h 对 输出 i 做 的 常量 拟 合 。 严 格 地 说 ， 它 不 依赖 于 x。( 在 12. 8.2 节 ， 
我 们 讨论 竞争 的 混合 专家 模型 ， 其 中 局 部 拟 合 是 x 的 线性 函数 。) 我 们 看 到 如 果 gi 1, W 
它 对 产生 正确 的 输出 负责 ， 并 且 需 要 最 小 化 它 的 预测 误差 的 平方 和 》 Cr - v5)? o 
使 用 梯度 上 升 最 大 化 该 对 数 似 然 ， 我 们 得 到 
Aw, = nd rf (12. 33) 
其 中 
gi exp [- 5 i- ya] 


i ie ee 
dei l-ie - ya)? | 


(12.34) 
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p(h|r,x) = Plhlx)p(r |h,x) 
X p(llx)p(r|l,x) 


gh = p(h |x) EREA RIE A SR, EKFARI ORES f= 


p(h |r, x') 是 给 定 输入 和 期 望 的 输出 、 单 元 的 后 验 概率 ， 也 在 选择 负责 单元 时 考虑 误差 。 
类 似 地 ， 我 们 可 以 推导 更 新 中 心 的 规则 : 





(12. 35) 


Am, = 7 2 (fi - g) a (12. 36) 
f EE h 的 后 验 概率 ， 也 考虑 要 求 的 输出 ， 而 g; 是 仅 使 用 输入 空间 信息 的 后 验 概 
率 。 它 们 的 差 是 中 心 的 误差 项 。 可 以 类 似 地 导出 As;。 在 协同 情况 下 ， 并 不 强求 单元 是 局 
部 的 。 为 了 降低 误差 ， 均 值 和 展 宽 都 可 以 取 任 意 值 ; 有 时 ， 甚 至 可 以 增加 和 展 平 展 宽 。 
然而 ， 在 竞争 情况 下 ， 为 了 提高 似 然 ， 单 元 必须 是 局 部 的 ， 它 们 之 间 更 加 分 离 ， 并 具有 
更 小 的 展 宽 。 
对 于 分 类 ， 每 个 分 支 本 身 是 多 项 式 。 于 是 ， 对 数 似 然 为 


£( LIM, ,sn Win | ih |X) = >» log > gi [I Cyn)" (12. 37) 
t h i 
= È log È gi exp | Èr log y's | (12. 38) 
其 中 
t exp Win 
% = (12. 39) 
， 之 exp Wih 


可 以 使 用 梯度 上 升 导出 wj m, Als, 的 更 新 规则 ， 这 包括 
gi exp | Dri log ys | 
fi = 3 
È g! exp | J, ri log yi | 
在 第 7 章 ， 我 们 讨论 了 用 混合 高 斯 模型 拟 合 数据 的 EM 算法 。 也 可 以 将 EM 推广 到 监督 


FI KRE, HA MME. fe = PCr|h, x') 取 代 了 p(h|x')， 后 者 是 应 用 处 于 非 监 
督 状态 时 我 们 在 第 7 章 的 下 步 所 使 用 的 。 对 于 回归 ， 在 M 步 我 们 用 下 式 更 新 参数 





(12. 40) 








>t 
m, = 一 (12.41) 
Zf 
DE -m,)(x' -m,)" 
s s —1— (12. 42) 
Èf 
Efir 
Wy = Th (12. 43) 
h 


我 们 看 到 wa 是 加 权 平 均 ， 其 中 权重 是 给 定 输入 和 期 望 的 输出 、 单 元 的 后 验 概率 。 对 于 分 类 ， 
M 步 没有 解析 解 并 且 需 要 借助 于 迭代 过 程 ， 例 如 梯度 上 升 (Jordan 和 Jacobs 1994) 。 
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12.7 学 习 向 量 量化 


假设 对 每 个 类 我 们 有 五 个 单元 , 已 经 被 这 些 类 标记 。 这 些 单元 已 经 被 它们 的 类 中 的 实 
例 随 机 初始 化 。 在 每 次 迭代 中 ， 我 们 发 现 单 元 m, 在 欧式 距离 下 最 接近 输入 实例 ， 并 使 用 如 
下 更 新 规则 : 
= n(x — m,) 如 果 x 和 mi 具有 相同 的 类 标号 (12. 44) 

Am, =- n(x - m,) 否则 

如 果 最 近 的 中 心 具 有 正确 的 标号 ， 则 它 将 移 向 输入 ， 以 便 更 好 地 代表 它 。 如 果 它 属于 错 
误 的 类 ， 则 它 远离 输入 ,我们 期 望 的 情形 是 ， 如 果 它 移 得 足够 远 ， 则 在 未 来 的 迭代 中 正确 的 
类 将 是 最 近 的 。 这 称 作 学 习 向 量 量 化 (learning vector quantization ，LVQ ) 模型 H Kohonen 提 
出 (1990，1995 ) 。 

LVQ 更 新 方程 类 似 于 式 (12. 36) ， 其 中 中 心 移 动 的 方向 依赖 于 两 个 值 的 差 : 获胜 单元 基 
于 输入 距离 的 预测 和 获胜 者 基于 要 求 的 输出 。 


12.8 混合 专家 模型 


在 RBF 中， 对 应 每 个 局 部 小 片 ， 我们 给 出 一 个 常量 拟 合 。 在 对 于 任意 输入 ， 我 们 有 一 
个 g 为 1， 而 其 余 为 0 的 情况 下 ， 我们 得 到 一 个 分 段 常 量 近 似 ， 其 中 对 于 输出 i， 小 片 h 的 
局 部 拟 合 由 wi 给 出 。 从 泰勒 展开 式 我 们 知道 在 每 个 点 ， 函 数 可 以 写成 

Fx) = fla) + (x -of (a) + (12. 45) 

这 样 ， 如 果 * 足够 接近 a 并 且 f'(a) 接 近 0， 即 如 果 f(x) 在 a 附近 是 平坦 的 ， 则 常量 近 
似 很 好 。 如 果 不 是 这 种 情况 ， 则 我 们 需要 将 空间 划分 成 大 量 小 片 。 当 输入 维度 很 高 时 ， 由 于 
维 灾难 的 缘故 ， 这 将 是 一 个 特别 严重 的 问题 。 

一 种 可 供 选 择 的 方法 是 考虑 泰勒 展开 式 的 下 一 项 ( 即 线性 项 )， 使 用 分 段 线性 近似 
( piecewise linear approximation) 。 这 就 是 混合 专家 模型 ( mixture of experts) 所 做 的 (Jacobs 等 ， 
1991) 。 我 们 令 


y= È wagi (12. 46) 
它 与 式 (12. 25 ) 一 样 ， 但 是 这 里 小 片 h OTH i OTK wy, AE TT A HE PRE 
iy = VAX (12. 47) 


yi 是 参数 向 量 ， 定 义 线性 函数 ， 并 包含 一 个 偏 倚 项 ， 使 得 混合 专家 模型 是 RBF 网 络 的 
推广 。 单 元 活性 可 以 取 规范 化 的 RBF: 
, _ expl- fx" - m, 117/251] 
j È expl- lx - m, 7/257] 
除 第 二 层 权重 不 是 常量 而 是 线性 模型 的 输出 外 ， 这 可 以 看 作 RBF 网 络 (参见 图 12-10) 。 
Jacobs 等 (1991) 用 另 一 种 方法 来 看 它 : 他 们 将 ww 看 作 线 性 模型 ， 每 个 都 取 输 入 ， 并 称 它们 
为 专家 。& 被 看 作 一 个 门 网 络 (gating network) 的 输出 。 门 网 络 就 像 其 输出 之 和 为 1 的 分 类 器 
一 样 ， 将 输入 指派 给 一 个 专家 (参见 图 12-11) 。 





(12. 48) 
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图 12-10 混合 专家 模型 可 以 看 作 RBF 网 络 ， 其 中 第 二 层 的 权重 是 线性 
模型 的 输出 。 为 清晰 起 见 ， 只 显示 了 一 个 线性 模型 














图 12-11 混合 专家 模型 可 以 看 作 组 合 多 种 模型 的 模型 。w; 是 模型 ， 而 门 网 络 是 另 一 种 确定 每 个 
模型 的 权重 的 模型 ， 如 g, 所 示 。 从 这 个 角度 来 看 ， 专 家 和 门 网 络 都 不 限于 是 线性 的 


用 这 种 方式 看 待 门 网 络 ， 任 何 分 类 器 都 可 以 用 在 门 网 络 之 中 。 当 x 是 高 维 的 时 ， 使 用 局 
部 高 斯 单元 可 能 需要 大 量 专 家 ， 而 Jacobs 等 (1991 ) 提议 取 
,exp[ mix] 
> È, exp mx'] 
这 是 一 个 线性 分 类 器 。 注 意 ，m AED, ROP, HAKEE A. AK 
现 了 分 类 ， 它 将 输入 区 域 线性 地 划分 成 专家 h 负责 的 区 域 和 其 他 专家 负责 的 区 域 。 正 如 我 们 
将 在 第 17 章 再 次 看 到 的 ， 混合 专 家 模型 是 一 种 组 合 多 个 模型 的 一 般 结构 ; 专家 和 门 网 络 都 
可 以 是 非 线 性 的 ， 例如， 包含 多 层 感 知 器 而 不 是 线性 感知 器 (见习 题 6) 。 
Bottou 和 Vapnik(1992 ) 提出 了 一 种 类 似 于 混合 专家 模型 并 进行 线性 光滑 的 结构 。 在 他 们 


(12. 49 ) 
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的 方法 中 ， 最 初时 并 不 做 训练 。 当 给 定 一 个 检验 样本 时 ， 选 择 一 个 接近 检验 实例 的 数据 子 集 
(与 -最 近邻 一 样 ， 但 使 用 更 大 的 k)， 使 用 这 些 局 部 数据 训练 一 个 简单 模型 (如 线性 分 类 
器 ) ， 对 实例 做 出 预测 ， 然 后 丢弃 该 模型 。 对 于 下 一 个 实例 ， 创 建 一 个 新 模型 ， 如 此 下 去 。 
在 手写 数字 识别 应 用 中 ， 这 种 模型 比 多 层 感知 器 、k- 最 近邻 和 Parzen 窗口 具有 更 小 的 误差 。 
缺点 是 需要 现场 对 每 个 检验 实例 训练 一 个 新 模型 。 


12.8.1 协同 专家 模型 


在 协同 情况 下 ，y; 由 式 (12. 46) 给 定 ， 而 我 们 希望 使 它 与 要 求 的 输出 产 尽 可 能 接近 。 对 
于 回归 ， 误差 函数 是 


EC {my ,ss ,win in |x) = (12.50) 
使 用 梯度 下 降 ， 则 第 二 层 (专家 ) 权 重 参数 更 新 为 
Av, = NY, (ri - vi) gx (12.51) 


与 式 (12. 26) 比较 ， 我 们 看 到 唯一 的 区 别 是 ， 新 的 更 新 是 输入 的 函数 。 
如 果 我 们 使 用 软 最 大 门 (参见 式 (12. 49) ) ， 则 使 用 梯度 下 降 我 们 有 超 平面 的 如 下 更 新 规则 : 


Am, = > (ri - yi) (wi, - yi) Bh} (12. 52) 
如 果 我 们 使 用 径 向 门 (参见 式 (12. 48) ) ， 则 只 有 最 后 一 项 apy/amy A 
对 于 分 类 ， 我 们 有 











exp | È wagi ] 
和 = (12. 53 ) 
> exp | È wagi | 
其 中 wj =v%x， 并 且 使 用 梯度 下 降 最 小 化 互 烂 可 以 推导 出 更 新 规则 (习题 7) 。 
12.8.2 竞争 专家 模型 
正如 竞争 的 RBF, RTA 
L( {rm Saint in x) = È log $ g, exp | 一 D (r; - Ya) | (12. 54) 
其 中 yi =wi =vx'。 使 用 梯度 上 升 ， 我 们 得 到 
Ava = 7 2 ri = vin AX (12. 55) 
Am, =n), (fr - 8) *' (12. 56) 
假定 软 最 大 门 如 式 (12. 49). 
对 于 分 类 ， 我 们 有 
L( {my 5, Wint in Ix) = È log $ gi TT C)“ (12. 57) 
z= 5 log 5 siex [ Èr log Yin | (12. 58) 
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其 中 
1 _ expw: exp[ywat'] 
2, exp Win 7 2, expl Max | 
Jordan 和 Jacobs (1994) 将 EM 推广 到 具有 局 部 线性 模型 的 竞争 情况 。Alpaydm 和 Jordan 
(1996) 比较 了 用 于 分 类 人 物 的 协同 和 竞争 模型 ， 发 现 协 同 模型 一 般 更 精确 ， 但 是 竞争 版 本 
学 习 更 快 。 这 是 因为 在 协同 情况 下 ， 重 秋 更 多 并 且 实 现 了 比较 光滑 的 近似 ， 因 此 更 适合 回归 
问题 。 竞 争 模 型 做 比较 硬 的 划分 ; 通常 ， 对 于 一 个 输入 ， 只 有 一 个 专家 是 活路 的， 因此 学 习 
更 快 。 


12.9 层次 混合 专家 模型 


在 图 12-11 中 ,我们 看 到 一 组 专家 和 一 个 选择 一 个 专家 作为 输入 的 函数 的 门 网 络 。 在 层 
次 混合 专家 模型 (hierarchical mixture of expert) 中 ， 我 们 以 递归 的 方式 用 一 个 完整 的 混合 专家 
系统 取代 每 个 专家 (Jordan 和 Jacobs 1994) 。 这 种 结构 可 以 看 作 是 一 棵 决策 树 ( 第 9 章 ) ， 其 
中 门 网 络 可 以 看 作 决 策 结 点 。 当 门 网 络 是 线性 的 时 ， 这 很 像 第 9.6 节 讨 论 的 线性 多 元 决策 
树 。 区 别 是 门 网 络 并 不 做 硬 决策 ， 而 是 取 来 自 子女 贡献 的 加 权 和 。 叶 结 点 是 线性 模型 ， 并 且 
它们 的 决策 被 取 平 均值 并 在 树 中 向 上 传播 。 树 根 给 出 最 终 的 输出 ， 输 出 是 所 有 树叶 决策 的 加 
权 和 。 这 是 一 棵 软 决策 树 (soft decision tree) ， 与 我 们 以 前 看 到 的 决策 树 不 同 ， 其 中 只 取 一 条 

一 且 结 构 选 定 ， 即 选 定 深度 、 专 家 和 门 模型 ， 整 棵 树 就 可 以 从 标记 的 样本 中 学 习 。Jor- 
dan 和 Jacobs(1994 ) 为 这 样 的 结构 推导 出 了 梯度 下 降 和 EM 学 习 规则 。 


12.10 ”注释 





(12. 59) 


RBF 网 络 可 以 看 作 神 经 网 络 ， 由 简单 处 理 单元 的 网 络 实现 。 它 不 同 于 多 层 感 知 器 ， 第 
一 层 和 第 二 层 实 现 了 不 同 的 函数 。Omohundro( 1987 ) 讨论 了 如 何 用 神经 网 络 实现 局 部 模型 ， 
并 且 还 提出 了 相关 局 部 单元 快速 局 部 化 的 层次 数据 结构 。Specht(1991 ) 证明 Parzen 窗口 可 以 
作为 神经 网 络 实现 。 

Platt( 1991 ) 提出 了 RBF 的 增 量 版 本 ， 那 里 新 单元 可 以 在 必要 时 添加 。 类 似 地 ，Fritzke 
(1995 ) 提 出 了 SOM 的 增长 版 本 。 

Lee(1991 ) 在 手写 数字 识别 应 用 上 比较 了 上 大 最 近邻 、 多 层 感 知 器 和 RBF 网 络 ， 并 且 结 论 
是 三 种 方法 都 具有 小 误差 率 。RBF 网 络 学 习 比 多 层 感 知 器 上 的 后 向 传播 快 ， 但 是 使 用 更 多 
参数 。 就 分 类 速度 和 存储 需求 而 言 ， 这 两 种 方法 都 优 于 k-NN。 在 实际 应 用 中 ， 像 时 间 、 存 
储量 和 计算 复杂 性 等 实际 限制 可 能 比 误差 率 的 些许 差别 更 重要 。 

Kohonen 的 SOM(1990, 1995) 是 最 流行 的 神经 网 络 方法 之 一 ， 已 经 用 于 各 种 各 样 的 应 
用 ,包括 探测 式 数据 分 析 和 作为 监督 学 习 之 前 的 预 处 理 步骤。 一 个 有 趣 和 成 功 应 用 的 例子 是 
旅行 商人 的 问题 ( Angeniol 、Vaubois 和 Le Texier 1988 ) 。 正 如 大 均值 聚 类 与 高 斯 混合 中 EM 
(参见 第 7 章 ) 之 间 的 区 别 一 样 ， 生 成 地 形 图 映射 ( generative topographic mapping, GTM ) 
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(Bishop, Svebsén 和 Williams 1998 ) 是 SOM 的 概率 版 本 ， 它 使 用 其 均值 落 在 二 维 流 形 上 的 
(关于 低 维 上 的 拓扑 序 ) 高 斯 混合 优化 数据 的 对 数 似 然 。 

在 RBF 网 络 中 ， 一 旦 中 心 和 展 宽 固定 (例如 ， 像 锚 方法 中 那样 ， 通 过 随机 选择 训练 实例 
中 的 一 个 子 集 作 为 中 心 ) ， 训 练 第 二 层 是 一 个 线性 模型 。 这 个 模型 等 价 于 取 高 斯 核 的 支持 向 
量 机 。 其 中 在 学 习 期 间 ， 选 择 最 佳 的 实例 子 集 ( 称 作 支持 向 量 ) ， 我 们 将 在 第 13 章 讨 论 。 高 
斯 过 程 (参见 第 14 章 ) 也 类 似 ， 其 中 我 们 由 存放 的 训练 实例 插值 。 


12.11 习题 


. 给 出 一 个 实现 XOR 的 RBF 网 络 。 

. 写 下 RBF 网 络 ， 它 使 用 椭圆 单元 ， 而 不 是 像 式 (12. 13 ) 中 那样 使 用 径 问 单元 。 

. 为 分 类 的 RBF 网 络 推导 更 新 方程 (参见 式 (12. 20) 和 式 (12.21) )。 

. 展示 如 何 训练 式 (12. 22 ) 给 定 的 系统 。 

比较 混合 专家 结构 和 RBF 网 络 的 参数 个 数 。 

. 给 出 混合 专家 结构 的 公式 ， 其 中 专家 和 门 网 络 都 是 多 层 感知 器 。 为 回归 和 预测 推导 更 新 
方程 。 

7. 为 分 类 推导 协同 混合 专家 模型 的 更 新 方程 。 

8. 为 分 类 推导 竞争 混合 专家 模型 的 更 新 方程 。 

9. 给 出 具有 两 个 层次 混合 专家 结构 的 公式 。 使 用 梯度 下 降 ， 为 回归 和 分 类 推导 更 新 方程 。 

10. 在 混合 专家 模型 中 ， 由 于 不 同 的 专家 专攻 输入 空间 的 不 同 部 分 ， 因 此 他 们 需要 关注 不 同 

的 输入 。 讨 论 如 何在 专家 中 局 部 地 进行 维 归 约 。 
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核 机 器 是 最 大 边缘 方法 ， 允 许 把 模型 表示 为 训练 实例 的 一 个 子 集 的 影响 之 和 。 这 些 影 响 
用 应 用 专用 的 相似 性 核 给 出 。 我 们 讨论 * 核 化 的 ” 分类、 回归、 离 群 点 检测 和 维 归 约 ， 以 及 
如 何 选择 和 使 用 核 。 


13.1 引言 


现在 ， 我 们 讨论 一 种 不 同 的 线性 分 类 和 回归 方法 。 不 必 惊 奇 ， 即 使 对 于 线性 模型 这 种 简 
单 情 况 ， 也 存在 这 么 多 不 同 的 方法 。 每 种 学 习 算 法 都 具有 不 同 的 归纳 偏 傅 ， 做 不 同 的 假设 ， 
定义 不 同 的 目标 函数 ， 因 此 可 能 找到 不 同 的 线性 模型 。 

本 章 ， 我 们 将 讨论 的 模型 称 作 支持 向 量 机 (Support Vector Machine, SVM), ， 稍 后 推广 到 
核 机 器 ( kernel machine) 。 近 年 来 它们 非常 流行 ， 原 因 如 下 : 

1) 它 是 基于 判别 式 的 方法 ， 并 使 用 Vapnik 原则 : 不 要 在 解决 实际 问题 之 前 把 解决 一 个 
更 复杂 的 问题 作为 第 一 步 (Vapnik 1995 )。 例 如 ， 对 于 分 类 ， 当 任务 是 学 习 一 个 判别 式 时 ， 
不 必 佑 计 类 密度 p( C; | x) 或 准确 的 后 验 概率 值 P(C; | x); 我 们 只 需要 估计 类 边界 在 哪里 ， 
HAIE P(C | x) =P(CC | x) 成 立 的 x。 类 似 地 ， 对 于 离 群 点 检测 ， 我 们 不 需要 估计 全 密度 
p(x); 只 需要 找 出 把 具有 较 低 p(x) 值 的 x 分开 的 边界 ; BITES BM Oe (0，1) ， 找 出 
把 满足 p(x) <0 的 x 分 开 的 边界 。 

2) 训练 后 ， 线 性 模型 的 参数 (权重 向 量 ) 可 以 用 训练 集 的 一 个 子 集 表 示 ， 这 个 子 集 因 而 
称 作 支持 向 量 ( support vector) 。 对 于 分 类 ， 这 些 是 靠近 边界 的 实例 ， 因 此 知道 它们 可 以 提取 
知识 : 这 些 是 在 两 个 类 之 间 的 边界 附近 、 不 确定 或 有 错误 的 实例 。 它 们 的 个 数 给 我 们 提供 了 
泛 化 误差 的 估计 ， 并 且 正 如 我 们 将 在 下 面 看 到 的 ， 用 实例 集 表 示 模 型 参数 可 以 进行 核 化 
( kernelization ) 。 

3) 正如 我 们 稍 后 将 看 到 的 ， 输 出 用 支持 向 量 的 影响 和 表示 ， 并 且 这 些 用 核 函数 (kemel 
function) 给 出 ; 核 函 数 是 数据 实例 之 间 相 似 性 的 应 用 专用 度量 。 前 面 ， 我 们 谈 到 非 线 性 基本 
数 ， 它 使 得 我 们 能 够 把 输入 映射 到 男 一 个 空间 ， 在 那个 空间 里 可 以 找到 线性 (光滑 的 ) 解 。 
核 函 数 使 用 相同 的 思想 。 

4) 通常 ， 在 大 部 分 学 习 算 法 中 ， 数 据点 用 向 量 表示 ， 或 者 使 用 点 积 ( 如 在 多 层 感知 器 
中 ) ,或 者 使 用 欧 氏 距离 (如 在 径 向 基 范 数 网 络 中 )， 核 函数 使 得 我 们 走 得 更 远 。 例 如 ，6, 
和 Gs 可 以 是 两 个 图 ， 而 天 (CI ，C2: ) 可 以 对 应 于 共享 路 径 数 ， 我 们 可 以 计算 它 ， 而 不 必 显 式 
地 用 向 量 表示 G 或 6,。 

5) 基于 核 的 算法 可 以 形式 化 地 表示 成 凸 优化 问题 ， 并 且 存 在 单个 最 优 解 ， 我 们 可 以 解 
析 地 求解 这 个 最 优 解 。 因 此 ， 我 们 不 再 受 启发 式 方法 的 学 习 率 、 初 始 化 、 检 查收 敛 性 等 困 
扰 。 当 然 ， 这 并 不 意味 着 我 们 没有 用 于 模型 选择 的 超 参数 。 我 们 有 超 参数 ， 任 何方 法 都 需要 
它们 ， 以 使 得 算法 与 当前 数据 相 匹 配 。 
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我 们 用 分 类 开始 我 们 的 讨论 ， 然 后 推广 到 回归 、 离 群 点 (新 颖 性 ) 检 测 ， 然 后 是 维 归 约 。 
我 们 看 到 ， 在 所 有 情况 下 ， 基 本 上 都 有 类 似 的 二 次 规划 问题 ， 在 解 的 光滑 性 约束 下 ， 最 大 化 
实例 的 分 离 性 或 边缘 (margin) 。 通 过 对 它 求解 我 们 得 到 支持 向 量 。 核 函数 根据 其 相似 性 概念 
定义 空间 ， 并 且 一 个 核 函数 是 好 的 ， 如 果 在 其 对 应 空间 中 我 们 有 更 好 的 分 离 性 。 


13.2 最 佳 分 离 超 平面 


让 我 们 还 是 从 两 类 开始 ， 并 使 用 -1 和 +1 标记 这 两 个 类 。 样 本 为 X= fx’, "| ， 其 中 如 
果 x' eC 则 r= +l, WR x eC, Wer = -1。 我 们 和 希望 找到 w 和 w。， 使 得 
对 于 二 =+1， wx +wo 宇 +1 
对 于 r=-1,， wx +w <-1 
它们 可 以 改写 为 
r(w'x' +w) 三 +1 (13.1) 
注意 ， 我 们 并 不 是 简单 地 要 求 
r(wx +w) 三 0 
为 了 更 好 地 泛 化 ， 我 们 不 仅 希 望 实例 在 超 平面 的 正确 一 侧 ， 而 且 还 希望 它们 离 超 平面 有 
一 定 距离 。 超 平面 到 它 两 侧 最 近 实 例 的 距离 称 作 边缘 (margin)。 为 了 更 好 地 泛 化 ， 我 们 希望 
最 大 化 边缘 。 
在 2.1 节 讨 论 拟 合 一 个 矩形 时 谈 到 过 边缘 的 概念 ， 我 们 指出 最 好 把 矩形 放 在 $ 和 G 的 中 
间 ， 留 有 余地 ， 这 样 做 是 为 了 在 噪声 少许 移动 检验 实例 时 ， 实 例 仍然 在 边界 的 正确 一 侧 。 
类 似 地 ， 现 在 我 们 使 用 的 假设 类 是 直线 ， 最 佳 分 离 超 平面 (optimal separating hyperplane ) 
是 最 大 化 边缘 的 超 平面 。 
回忆 10.335, x 到 判别 式 的 距离 为 
|w'x' + wo | 
lw || 
Mrve{—-1, +1}, Estat wide 
r'(w'x'! + wo ) 
l» |l 
并 且 我 们 希望 至 少 对 于 某 个 p， 
r'(w'x' + wo) 
w || 
我 们 希望 最 大 化 p, 但 是 缩放 w， 我 们 可 以 得 到 的 解 有 无 限 多 个 。 为 了 得 到 唯一 解 ， 我 


=p, Vt (13.2) 


们 固定 p || w || =1, 这样， 为 最 大 化 边缘 ， 我 们 最 小 化 | w 上 外 ， 因 此 这 个 任务 可 以 定义 为 


(参见 Cortes 和 Vapnik 1995; Vapnik 1995) : 
min > liw |è, SIRF (wx! +m) S41, Vi (13.3) 


这 是 一 个 标准 的 二 次 优化 问题 ， 其 复杂 度 依赖 于 4， 并 且 可 以 直接 求解 ， 以 找到 w 和 
wo 于是， 在 超 平 面 的 两 人 出 ， 实 例 离 超 平面 至 少 为 1/ w |, me SARA 2/|| w |。 
在 10. 2 节 中 我 们 看 到 ， 如 果 问 题 不 是 线性 可 分 的 ， 则 我 们 不 拟 合 非 线性 函数 ， 而 是 使 
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用 非 线 性 基 函 数 将 问题 映射 到 新 的 空间 。 通 常 ， 新 空间 的 维度 比 原 空间 更 高 ， 并 且 在 这 种 情 
况 下 ， 我 们 对 复杂 度 不 依赖 输入 维度 的 方法 感 兴趣 。 

在 寻找 最 佳 分 离 超 平面 时 ， 我们 可 以 把 该 优化 问题 转换 成 复杂 度 依 赖 于 训练 实例 数 N, 
而 不 依赖 于 d 的 形式 。 正 如 我 们 将 在 13. 5 节 看 到 的 ， 这 种 新 表示 方法 的 男 一 个 优点 是 ， 它 
使 得 我 们 可 以 用 核 函 数 改写 基 函 数 。 

为 了 得 到 新 的 公式 ， 我 们 使 用 拉 格 朗 日 乘 子 a ， 将 式 (13.3) 改 写成 非 约束 问题 : 

ie bi» 1? -= B aLr (Wx + w) = 1] 
sg iwi? Dor (wx +w) + È a (13.4) 


这 应 当 关 于 w、wo 最 小 化 ， 并 关于 w > 0 KE. PA h Eo 

这 是 一 个 凸 二 次 优化 问题 ， 因 为 主要 项 是 凸 的 ， 并且 线性 约束 也 是 是 的。 这样， 我 们 可 
以 使 用 Karush-Kuhn-Tucker 条 件 ， 解 其 对 偶 问 题 。 对 偶 问 题 是 关于 a 最 大 化 五 ， 受 限于 约 
KL, XF w 和 wo 的 梯度 为 0， 并 且 a' 20: 


ðL LA toe 

m 0w 2 arx (13. 5) 
aL, a 

a ie? 2 =0 (13.6) 


将 它们 代入 式 (13.4) ， 我 们 得 到 对 偶 问 题 
L, = 5 (ww) -w Darx -wo ar + Ya’ 


= - (ww) + da (13.7) 


=- re 之 aerr (ae!) x + da 
我 们 只 需要 关于 a 对 它 最 大 化 ， 受 限于 约束 
Zar =0, 并 且 对 于 任意 上 i，w SO 
这 可 以 使 用 二 次 优化 方法 来 求解 。 对 偶 问 题 的 规模 依赖 于 样本 的 大 小 Y， 而 不 依赖 于 输 
入 的 维度 4d。 时 间 复 杂 度 的 上 界 为 0(N“) ， 而 空间 复杂 度 的 上 界 为 O(N ?)。 
一 旦 我 们 解 出 a ， 可 以 看 到 尽管 它们 有 NN 个 , 但 是 多 半 以 a =0 消失 ， 而 只 有 少量 满足 
a >0。a >0 的 x' 的 集合 是 支持 向 量 (support vector) ， 并 且 正 如 我 们 在 式 (13.5) 中 看 到 的 ， 
w 可 以 写成 那些 选 作 支持 向 量 的 训练 实例 的 加 权 和 。 这 些 z 满足 
r(w x +w) =1 
并 且 落 在 边缘 上 。 我 们 使 用 这 一 事实 ， 由 任意 支持 向 量 来 计算 wo: 
wo = r' —w'x' (13.8) 
从 数值 稳定 性 来 讲 ， 建 议 对 所 有 支持 向 量 计算 上 式 ， 并 取 平 均值 。 这 样 找 出 的 判别 式 称 
作 支 持 向 量 机 ( support vector machine, SVM) (参见 图 13-1). 
a 大 部 分 为 0， 对 于 它们 , (wx +w) >1。 这 些 x' 落 在 远离 判别 式 的 地 方 ， 并 且 对 
超 平面 没有 影响 。 非 支持 向 量 的 实例 不 携带 信息 ， 即 便 删 除 它 们 的 任意 子 集 ， 我们 仍然 得 到 
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相同 的 解 。 从 这 个 角度 讲 ，SVM 算法 与 精简 最 近邻 算法 (参见 8.5 节 ) 类 似 ， 它 只 保存 邻近 
(因而 约束 ) 类 判别 式 的 实例 。 

作为 基于 判别 式 的 算法 ，SVM 只 关注 那些 靠近 边界 的 实例 ， 而 丢弃 那些 落 在 内 部 的 实 
例 。 使 用 这 种 思想 ， 可 以 在 求 SVM 之 前 先 使 用 一 种 较 简单 的 分 类 器 过 滤 掉 这 种 实例 的 大 部 
分 ， 从 而 降低 SVM 优化 阶段 的 复杂 度 ( 习题 1) 。 

在 检验 阶段 ， 我 们 不 强调 边缘 。 我 们 计算 g(x) = wx' +w。， 并 根据 g(x) 的 符号 选择 : 

如 果 g(x) >0 则 选择 C, ， 否 则 选择 Co 


13.3 不 可 分 情况 : 软 边 缘 超 平面 


如 果 数 据 不 是 线性 可 分 的 ， 则 我 们 前 面 讨论 的 算法 就 不 能 解决 问题 。 在 这 种 情况 下 ， 如 
果 两 个 类 不 是 线性 可 分 的 ， 使 得 不 存在 将 
它们 分 开 的 超 平面 ， 则 寻找 出 错 最 少 的 超 
平面 。 我们 定义 松弛 变量 (slack variable ) 
“大 0， 存 放 到 边缘 的 离 差 。 有 两 种 类 型 的 
离 差 : 一 个 实例 可 能 位 于 超 平面 的 错误 一 
侧 ， 并 被 错误 地 分 类 ; 或 者 实例 可 能 在 正 
确 的 一 侧 但 落 在 边缘 中 ， 即 离 超 平面 不 够 
远 。 放 宽 式 (13.1) ， 我 们 要 求 
r(w'x +w) 2l-é& (13.9) 
WR E =O, Wx! 没有 问题 。 如 果 0 < aa. 
E<1, Wx 被 正确 分 类 ， 但 是 它 在 边缘 中 。 % 05 | T 











2 
: t iil t pe Atk Set 类 (参见 | 
MAPSI Mx 被 错误 地 分 类 (参见 Wisi 一 个 两 类 问题 ， 其 中 类 实例 用 加 号 和 国 点 
图 13-2)。 错 误 分 类 数 为 #1 >1| ， 并 且 不 可 表示 ， 粗 线 是 边界 ， 两 侧 的 虚线 定义 边缘 。 
分 的 点 数 为 #| 专 >01 。 我 们 定义 软 误差 (soft 圈 住 的 实例 是 支持 向 量 
error) 为 YE ， 并 且 将 加 上 它 作为 罚 项 : 
1 
b=71wl +e ye (13. 10) 


受 限 于 式 (13.9) 的 约束 。C 是 罚 因 子 ， 像 任意 正则 化 模式 一 样 ， 在 复杂 度 和 数据 误 拟 合 之 间 
权衡 ; 其 中 复杂 度 用 权重 向 量 的 L 范 数 度量 (类 似 于 多 层 感知 器 中 的 权 训 减 ， 参 见 11.9 
节 ) ， 而 数据 误 拟 合用 未 分 开 的 点 数 度量 。 注 意 ， 为 了 更 好 地 泛 化 ， 我 们 不 仅 处 罚 误 分 类 的 
点 ， 也 处 罚 边缘 中 的 点 ， 尽 管 后 者 在 检验 时 被 正确 地 分 类 。 

加 上 这 些 约束 ， 式 (13.4) 的 拉 格 于 日 方程 变 成 


六 = 二 Ti2+CZE - Lal +m) -1+8] - Bue (13.11) 


其 中 几 是 新 的 拉 格 朗 日 参数 ， 确 保志 为 正 。 当 我 们 对 上 式 关于 参数 求 导 ， 并 令 它 们 为 0 时 ， 
我 们 得 到 


OL, t tot tae 
ow ee ere =O=mw = Sor (13. 12) 
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第 13 部 
L 
st = Fa’ =0 (13. 13) 
Wo t 
L 
Se ee nat (13. 14) 
0g 


由 于 pj 二 0， 上 式 意 味 0<a <C。 把 这 些 代 入 式 (13. 11)， 我们 得 到 关于 a 最 大 化 的 对 
偶 问 题 
L= Sat - D Da rr (x) "x" (13. 15) 
受 限 于 
ar=0, 并 且 对 于 任意 1t，0 <a sC 
解 这 个 对 偶 问 题 ， 我 们 看 到 与 可 分 情况 一 样 ， 落 在 边界 正确 一 侧 并 距 边 界 是 够 远 的 实例 
随 w =0 消失 (参见 图 13-2) 。 支 持 向 量 的 a >0， 并 且 如 式 (13. 12) 所 示 ， 它 们 定义 w。 当 
然 ， 那 些 使 w <C 的 实例 在 边缘 上 ， 并 且 我 们 使 用 它们 计算 w; 它们 有 二 =0, 并且 满足 r 
(wx +w) =1。 同 样 ， 最 好 在 这 些 wu 的 估计 上 取 平 均值 。 在 边缘 中 或 误 分 类 的 那些 实例 的 
a’ =C, 











图 13-2 ”在 对 实例 进行 分 类 时 ， 有 4 种 可 能 的 情况 : (a) 实例 在 正确 一 侧 并 且 远 离 边缘 ; rig(x') > 
1, &=0, (b)& =0; 它 在 正确 的 一 侧 并 且 在 边缘 上 。(e)8 =1-g(x), O< E51; 点 在 
正确 的 一 侧 ， 但 在 边缘 中 ， 离 超 平面 不 够 远 。(d)& =1+g(x) >1， 点 在 错误 的 一 侧 一 一 
这 是 误 分 类 。 除 (a) 之 外 ， 所 有 实例 都 是 支持 向 量 。 用 对 偶 变 量 来 说 ， 在 (a) 中 有 a =0, 
在 (b) 中 有 a <C, 在 (c) 和 (d) 中 有 a =C 


作为 支持 向 量 存放 的 那些 不 可 分 的 实例 是 这 种 实例 ， 即 如 果 它 们 不 在 训练 集中 ， 则 我 们 
会 有 麻烦 ， 不 能 正确 地 对 它们 分 类 ; 它们 要 么 被 错误 分 类 ， 要么 被 正确 分 类 但 没有 足够 的 置 
言 度 。 我 们 可 以 说 ， 支 持 向 量 的 个 数 是 期 望 错 误 估 计数 的 一 个 上 界 。 并 且 实 际 上 Vapnik 
(1995 ) 已 经 证 明 期 望 检验 错误 率 是 


En| 支持 向 量 数 ] 


EvL P(error) ] = N 
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其 中 EL:] 表 示 在 大 小 为 N 的 训练 集 上 的 期 望 。 这 意味 着 错误 率 依赖 于 支持 向 量 的 个 数 ， 而 
不 依赖 于 输入 的 维度 。 

式 (13.9) 意 味 ， 如 果实 例 在 错误 一 侧 ， 或 者 离 边界 的 距离 小 于 1， 则 我 们 定义 它 为 错 
误 ， 这 称 作 转折 点 损失 (hinge loss)。 如 果 y =wm 2 +w 是 输出 , 7 是 期 望 的 输出 ， 则 转折 点 
损失 定义 为 

funy) = | | (13. 16) 
l-yr 否则 

在 图 13-3 中 ， 我 们 把 转折 点 损失 与 0/1 WR, OP FTIR PE ETT RAB, 
与 0/1 损失 不 同 ， 转 折 点 损失 还 处 罚 在 边 
缘 内 的 实例 ， 尽 管 它们 可 能 在 正确 的 一 
侧 ， 并 且 损 失 随 着 实例 在 错误 一 侧 远 离 而 
线性 增加 。 这 也 不 同 于 平方 损失 ， 因 而 平 
方 损失 不 如 转折 点 损失 鲁 棒 。 我 们 看 到 互 
Wi EB Ns Ae a BE IO aie FA Sal] QC BL 10.7 
节 ) ， 或 通过 线性 感知 器 (参见 11.3 节 )， 
是 对 转折 点 损失 的 一 个 好 的 连续 近似 。 

式 (13. 10) 中 的 C 是 用 交叉 验证 微调 
的 正则 化 参数 。 它 定义 边缘 最 大 化 与 误差 907 = ; EE 3 
最 小 化 之 间 的 权衡 : 如 果 它 太 大 ， 则 对 未 y 
分 开 的 点 有 高 的 处 罚 ， 并 且 可 能 存放 许多 图 13-3 比较 x =1 的 不 同 损失 函数 : 如 果 y =1 则 0/1 
支持 向 量 而 过 拟 合 。 如 果 它 太 小 ， 则 可 能 HAO, AMAL, WR y >1 则 转折 点 损失 
找到 过 于 简单 的 解 而 欠 拟 合 。 通 常 ， 通 过 为 0， 否则 为 1-y。 平方 误差 是 (1 -y)”。 互 
考察 验证 集 上 的 准确 率 ， 在 对 数 尺 度 从 WE log(1/(1 +exp( -y))) 

[1076, 10, =, 10*°, 10* ] p. 


1 的 损失 


r= 


9 
8 
7 
6 
5 
4 
3 
2 
1 
0 








13.4 v-SVM 


男 一 种 等 价 的 软 边缘 超 平 面 表示 使 用 参数 ve [0，1 ] ， 而 不 是 C( Schilkopf Æ, 2000) 。 
目标 函数 是 
min > lwl -w+ De (13.17) 
受 限 于 
r'(wx +w) >p-Ë, €&20, p20 (13.18) 
p 是 一 个 新 参数 ， 它 是 优化 问题 的 变量 并 且 缩 放 边 缘 : MWEE 2p) w || o v 已 经 被 证 明 
是 支持 向 量 所 占 比例 的 一 个 下 界 和 具有 边缘 误差 ( 2 AE > 0} ) 的 实例 所 占 比例 的 一 个 上 
界 。 对 偶 问 题 是 
ie z= E warr (a) (13. 19) 
受 限 于 
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当 我 们 将 式 (13. 19) 与 式 (13. 15) 比较 时 ， 可 以 看 到 项 2 a 不 再 出 现在 目标 函数 中 ， 而 是 一 
个 常数 。 通 过 操控 w， 我 们 可 以 控制 支持 向 量 所 占 的 比例 ， 并 且 这 被 认为 比 操控 C 更 直观 。 
13.5 核 技巧 


10. 2 节 指 出 ， 如 果 问 题 是 非 线性 的 ， 则 我 们 不 是 拟 合 一 个 非 线性 模型 ， 而 是 使 用 合适 
的 基 函 数 ， 通 过 非 线 性 变换 将 问题 映射 到 新 空间 ， 然 后 在 新 空间 使 用 线性 模型 。 新 空间 中 的 
线性 模型 对 应 于 原 空 间 中 的 非 线性 模型 。 这 种 方法 可 以 用 于 分 类 和 回归 问题 ， 并 且 对 于 分 类 
这 种 特殊 情况 ， 它 可 以 与 任意 模式 共同 使 用 。 在 支持 向 量 机 这 种 特定 情况 下 ， 这 导致 某 种 简 
化 。 现 在 我 们 进行 讨论 。 

设 我 们 有 通过 基 函 数 

z = p(x), 其 中 zj = (x), j= 1,.,k 
计算 新 的 维度 ,将 d- 维 x 空间 映射 到 大 维 z 空间 ， 其 中 判别 式 表示 为 


g(z) =w'z 
g(x) = w p(x) 
= Yuh (x) (13. 20) 


这 里 ， 我 们 并 不 使 用 单独 的 w。; 我 们 假定 a =p (x) =1。 通 常 , 大 远 大 于 d, 大 也 可 能 大 于 
N， 并 且 这 也 是 使 用 对 偶 形 式 的 优点 ， 对 偶 问 题 的 复杂 度 依 赖 于 NW， 如 果 我 们 使 用 原 问 题 ， 
则 将 依赖 于 k。 这 里 ,我 们 也 使 用 软 边缘 超 平 面 更 一 般 的 情况 ， 因 为 我 们 不 能 保证 问题 在 新 
空间 内 是 线性 可 分 的 。 
问题 是 一 样 的 
DY (13. 21) 
不 同 之 处 是 现在 约束 定义 在 新 空间 
rw (2 >1-€é (13. 22) 
拉 格 朗 日 方程 是 
L, = + Iwl + OVE - Ya'[rw'd(x') -14+é] - Vwe (13. 23) 
当 我 们 关于 参数 求 导 并 令 它 们 等 于 0 时 ， 得 到 





=w= È arol) (13. 24) 
aL 
Fee (13. 25) 
现在 ， 对 偶 问 题 是 
L, = Ya‘ - +3 F a'a’r'r'h(x')"b(2') (13. 26) 


受 限 于 
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Yair = 0 并 且 对 于 任意 t，0 <a <C 


核 机 器 的 基本 思想 是 用 支持 向 量 和 原 输 入 空间 中 的 实例 之 间 的 核 了 另 数 K(x', a) BRAE 
函数 的 内 积 p(x!) P). AEE, 不 是 把 两 个 实例 x' 和 x 映射 到 z 空间 并 在 那里 做 点 积 ， 
而 是 直接 使 用 原 空 间 中 的 核 函 数 。 

L= Dal - 5D Doarrkx,r) (13. 27) 

核 函数 也 出 现在 判别 式 中 

g(x) =w p(x) = 2 a'r'h(x') d(x) 


= F a'r'K(x',x) (13. 28) 


这 意味 着 ， 如 果 我 们 有 核 函 数 ， 则 完全 不 需要 把 它 映射 到 新 空间 。 实 际 上 ， 对 于 任何 有 
效 的 核 函数 ， 确 实 存 在 对 应 的 映射 函数 ,但 是 使 用 K(x ，z) 比 计算 B(x’) 和 B(x)， 再 求 点 
积 简单 得 多 。 正 如 我 们 在 下 一 节 所 看 到 的 ， 许 多 算法 都 被 核 化， 而 这 正 是 我 们 称 为 ^ 核 机 
dit” 的 原因 。 

核 值 的 矩阵 K, EP K, =K(x', x), HE Gram 42 (Gram matrix) ， 该 矩阵 应 该 是 对 称 
的 、 半 正定 的 。 近 来 ， 在 共享 数据 集中 ， 仅 有 K 矩阵 而 不 提供 zx 或 由 xz ) 已 经 成 为 标准 做 法 。 
尤其 是 在 生物 信息 学 和 自然 语言 处 理 的 应 用 中 ,x( 或 p(x)) 有 数 百 维 或 数 千 维 ,存放 或 下 载 
这 个 NxN 甜 阵 开销 小 得 多 ( Vert、Tsuda 和 Scholkopf 2004) ; 然而 ， 这 意味 着 我 们 只 能 使 用 这 
些 可 用 的 信息 进行 训练 或 检验 ， 并 且 不 能 使 用 训练 后 的 模型 对 该 数据 集 之 外 的 数据 进行 预测 。 


13.6 向 量 核 
最 流行 的 通用 核 函 数 是 
a q 次 多 项 式 : 
K(x',x) = (x"x' +1)! (13. 29) 
其 中 9 由 用 户 选 择 。 例 如 ， 当 g =2， 2x 


d=2 时 ， 
K(x,y) = (x'y +1)? 
= (ay, + Xyz + 1)” 


= 1 42x y, 十 2x2y 十 2X1X2y1》2 





+ iy, + 2375 
它 对 应 于 如 下 基 郴 数 的 内 积 (Cherkassky 
和 Mulier 1998 ) ; 


p(x) = [1 2%, ,V2x， ,VDxix a wal" 





图 13-4 中 给 出 了 一 个 例子 。 当 qg =1 % 0.5 1 15 2 


时 ,我 们 有 对 应 于 原 公式 的 线性 核 图 13-4 被 二 次 多 项 式 核 找 出 的 决策 边界 和 边缘 。 


(linear kernel) 。 圈 住 的 实例 是 支持 向 量 
= 径 向 基 函 数 (radial-based function) : 
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Ce 二 三 exp | - =AL] (13. 30) 


与 Parzen 窗口 一 样 (参见 第 8 章 )， 它 定义 一 个 球形 核 ， 其 中 x 是 中 心 ， 而 s 由 用 户 
提供 ， 定 义 半 径 ， 这 也 类 似 于 第 12 童 讨论 的 径 向 基 册 数 。 

图 13-5 中 给 出 了 一 个 例子 。 从 这 个 例子 中 我 们 看 到 ， 较 大 的 展 宽 光 滑 了 边界 ; 
最 好 的 值 用 交叉 验证 找到 。 注 意 ， 当 有 两 个 参数 使 用 交叉 验证 优化 时 (例如 这 里 的 C 
和 s )， 应 该 在 两 维 上 进行 栅 格 ( 因子) 搜索 。 我们 将 在 19. 2 节 讨 论 搜 索 这 种 因子 最 
佳 组 合 的 方法 。 





b) s*=0.5 c) 9-0.25 d) 9-0.1 
图 13-5 被 具有 不 同 展 宽 值 ” 的 高 斯 核 找 出 的 决策 边界 和 边缘 。 使 用 较 大 展 宽 ， 我 们 得 到 更 光滑 的 边界 
我 们 可 以 推广 欧 氏 距离 ， 从 而 使 用 马 氏 距离 核 : 


K(x',x) = exp | - Jo =x)" S (x' — x) | (13.31) 

其 中 $ 是 协 方差 窍 阵 。 或者， 在 最 一 般 的 情况 下 ， 对 于 某 个 距离 函数 D(x ,x)， 
使 用 

K(x',x) = exp[ - we (13. 32) 


m S 形 函数 (sigmoidal function) : 
K(x',x) = tanh(2x'x' +1) (13. 33) 
其 中 tanh(*) 与 S 形 函数 具有 相同 的 形状 ， 不同 的 是 它 的 取 值 为 -1 ~ +1， 这 类 似 于 
我 们 在 第 11 章 讨 论 的 多 层 感知 器 。 


13.7 定义 核 


还 可 以 定义 应 用 专用 的 核 。 核 通常 被 看 作 相 似 性 度量 ， 意 指 从 应 用 的 角度 来 看 ， 当 x 和 
y 更 “相似 "时 ,K(x, y) 取 更 大 的 值 。 这 意味 着 ,关于 应 用 的 任何 先 验 知识 都 可 以 通过 定义 
合适 的 核 提 供给 学 习 算 法 (“ 核 工程 ”)， 并 且 核 的 这 种 用 法 可 以 看 作 “ 线 索 ”( 参 见 11. 8.4 
节 ) 的 另 一 个 例子 。 

有 串 核 、 树 核 、 图 核 等 (Vert Tsuda 和 Schölkopf 2004) ， 取 决 于 我 们 如 何 表示 数据 ， 如 
何 度量 这 种 表示 下 的 相似 性 。 

例如 ， 给 定 两 份 文档 ， 出 现在 这 两 份 文档 中 词 的 个 数 可 以 作为 核 。 假定 D, 和 D, 是 两 份 
文档 ， 而 一 种 可 能 的 表示 称 作词 袋 (bag of words) ， 其 中 我 们 预先 定义 了 M 个 与 应 用 相关 的 
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il, EN O(D,) AMEZ, WRS i BE D, 中 ， 则 其 第 i 个 分 量 为 1， 否 则 为 
0s FÆ, D) "gp(D,) 计 算 被 共享 的 词 的 个 数 。 这 里 ,我 们 看 到 ， 如 果 直 接 把 K(D,，D,) 
作为 共享 词 的 个 数 来 定义 和 实现 ， 则 我 们 不 需要 预先 选择 M 个 词 ， 而 是 使 用 词典 中 的 任何 
词 ( 当然 ,在 丢弃 诸如 of, and 等 不 提供 信息 的 词 之 后 ) ， 并 且 不 需要 明确 地 产生 词 袋 表 示 ， 
仿佛 我 们 允许 用 想 多 大 就 多 大 一 样 。 

有 时 (例如 在 生物 信息 学 应 用 中 ) ， 我 们 可 以 计算 两 个 对 象 之 间 的 相似 度 得 分 (similarity 
score) ， 这 不 必 是 半 正 定 的 。 给 定 两 个 (基因 ) 串 ， 一 种 核 度 量 是 编辑 距离 (edit distance) ， 即 
把 一 个 串 转换 成 另 一 个 需要 做 多 少 次 操作 (插入 、 删 除 、 替 换 ) ， 这 又 称 为 比 对 (alignment ) 。 
在 这 种 情况 下 ， 一 种 技巧 是 定义 一 个 朵 个 模板 的 集合 ， 并 且 把 对 象 表示 成 一 个 在 所 有 模板 
上 得 分 的 路 维 向 量 。 也 就 是 说 ， 如 果 m (i =1, ++, M) AERA, s(x", m;) x' Am, 之 间 
的 得 分 ， 则 我 们 定义 

plx) = [s(x',m,) ,s(x',m,) ,ee ,s(x ,my) |" 
并 且 我 们 定义 经 验 核 映射 (empirical kernel map) 为 
K(x',x") = p(x') P(x’) 
这 是 一 个 合法 的 核 。 

有 时 ， 我 们 有 二 元 评分 函数 ， 例 如 ， 两 种 蛋白 质 可 能 相互 作用 ， 也 可 能 不 。 我 们 和 希望 把 
这 一 点 推广 到 任意 两 个 二 元 实例 的 得 分 。 在 这 种 情况 下 ， 技 巧 是 定义 一 个 图 ， 其 中 节点 是 实 
例 ， 如 果 它 们 相互 作用 ， 即 如 果 该 二 元 评分 返回 1， 而 两 个 节点 被 连接 。 于 是 ， 如 果 它 们 之 
间 的 路 径 短 或 被 许多 路 径 连 接 ， 则 认为 两 个 不 直接 连接 的 节点 是 “相似 的 "。 这 把 逐 对 局 部 
相互 作用 转换 成 全 局 相似 性 度量 ， 很 像 Isomap 使 用 的 测 地 距离 (参见 6.7 节 ) ， 并 称 为 扩散 
核 (diffusion kernel) 。 

如 果 p(x) 是 概率 密度 ， 则 

K(x',x) = p(x')p(x) 
是 一 个 合法 的 核 函 数 。 当 p(x) 是 x 的 生成 模型 ， 用 于 度量 我 们 看 到 x 的 可 能 性 时 ， 使 用 这 
PBB PAN, WAR x 是 一 个 序列 ， 则 p(x) 可 能 是 隐 马 尔 可 夫 模 型 (参见 第 15 章 )。 使 用 
OPK PHBL, WR x! 和 x 可 能 都 是 被 相同 模型 生成 的 ， 则 K(x',，x) 将 取 很 高 的 值 。 还 可 以 
将 生成 模型 参数 化 为 p(x 19) ， 并 且 由 数据 学 习 9， 这 称 作 费 希 尔 核 (Fisher kernel) (Jaakkola 
和 Haussler 1998 ) 。 


13.8 多 核 学 习 


可 以 通过 组 合 一 些 简单 的 核 来 构造 新 的 核 。 如 果 K (x, y) ALK, (x, y) 是 两 个 合法 的 
KH, Whe 是 常数 ， 则 
cK, (x,y) 
K(x,y) = (K(x,y) + K,(x,y) (13. 34) 
K, (x,y) + K,(x,y) 
也 是 合法 的 核 。 
还 可 以 对 x 的 不 同 子 集 使 用 不 同 的 核 。 这 样 ， 我 们 看 到 组 合 核 可 以 作为 融合 来 自 不 同 信 
息 源 信息 的 另 一 种 方法 ， 其 中 每 个 核 都 根据 自己 的 领域 度量 相似 性 。 当 我 们 有 来 自 两 种 表示 
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4 和 中 的 输入 时 ， 
K, (44,94) + Ks(Xp,ya) = hy (x4) "by (94) + by (X_) Pryn) 
= p(x)' p(y) 
= K(x,y) (13. 35) 


其 中 x =[x4，xs | 是 两 个 表示 的 捉 接 。 也 就 是 说 ， 取 两 个 核 的 和 对 应 于 在 串 接 特征 向 量 中 做 
点 积 ， 这 可 以 推广 到 大 量 核 


K(x,y) = YK (xy) (13. 36) 


RAST ADA a HPP SY (BL 17. 4 W), 这 次 是 在 核 上 取 平均 ， 不 再 需要 我 们 去 选择 一 个 
特定 的 核 。 还 可 以 取 加 权 和 ， 并 由 数据 学 习 权重 (Lanckriet 等 2004 Sonnenburg 等 2006) : 


K(x,y) = Dn) (13. 37) 
满足 m0， 满 足 或 不 满足 约束 Yin = 1 ， 分 别称 作 凸 组 合 和 椎 形 组 合 ， 这 称 作 多 核 学 习 
(multiple kernel learning) ， 其 中 我 们 用 核 的 加 权 和 取代 单 核 。 单 核 目标 函数 式 (13. 27) 变 成 


Lı = È o “5%, Saar D nK C" x’) (13. 38) 
我 们 求解 支持 向 量 机 参数 a' 和 核 权重 mi。 多 核 的 组 合 也 出 现在 判别 式 中 
g(x) = X ar 2 niK,(x' ,x) (13. 39) 


训练 后 ，7; 的 取 值 取决 于 对 应 的 核 天 (xz ，z) 在 判别 式 中 的 作用 。 还 可 以 通过 把 核 权 重 

定义 为 输入 x 的 有 参 函 数 对 核 的 局 部 化 ， 这 非常 像 混 合 专家 模型 的 选 通 函数 (参见 17. 8 节 ) 
g(x) = a'r’ 2, n(x|0.)K(x' x) (13. 40) 

并 且 选 通 参 数 b; 与 支持 向 量 机 参数 一 起 学 习 ( Cinen 和 Alpaydin 2008 ) 。 

当 我 们 有 来 自 多 个 不 同 的 表示 或 不 同形 态 下 的 数据 源 信息 时 (例如 ， 在 语音 识别 中 我 们 
可 能 有 声波 和 层 动 图 像 )， 通 常 的 方法 是 把 它们 分 别提 供给 不 同 的 分 类 器 ， 然 后 融合 它们 的 
决策 ; 我 们 将 在 第 17 章 详细 讨论 这 种 方法 。 组 合 多 个 核 提 供 了 另 一 种 集成 多 源 输 入 的 方法 ， 
其 中 单个 分 类 器 对 不 同 源 的 输入 使 用 不 同 的 核 ， 因 此 有 不 同 的 相似 性 概念 (Noble 2004), F 
是 ， 局 部 化 版 本 可 以 看 作 它 的 扩展 ， 其 中 我 们 可 以 根据 输入 来 选择 数据 源 ， 从 而 选择 相似 性 
度量 。 


13.9 多 类 核 机 器 


当 存在 K>2 个 类 时 ， 直 截 了 当地 ， 一 对 所 有 (one-vs-all) 方 法 定义 天 个 两 类 问题 ， 每 个 
都 把 一 个 类 与 其 他 所 有 类 的 组 合 分 开 ， 并 学 习 天 个 支持 向 量 机 gi(z)(=1，…， K)o EE 
是 说 ， 在 训练 g,(x) 时 ，C; 类 的 实例 标记 为 +1， 而 Ci(k 对 让 类 的 实例 标记 为 -1。 在 检验 
时 ， 我 们 计算 所 有 的 g,(x) ， 并 选择 最 大 的 。 

Platt( 1999 ) 提出 用 一 个 S 形 函数 拟 合 单个 (两 类 )SVM 的 输出 ， 以 把 输出 转换 成 后 验 概 
率 。 类 似 地 ， 可 以 训练 一 个 软 最 大 输出 层 来 最 小 化 互 粹 ， 以 产生 K>2 个 后 验 概率 (Mayoraz 
和 Alpaydin 1999) ; 
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y(x) = Safle) +v (13. 41) 


其 中 f(x) 是 SVM 的 输出 ， 而 y 是 后 验 概率 输出 。 训 练 权重 vK MEHER YR i ta BEE 
意 ， 与 层 释 中 一 样 (参见 17.9 节 )， 训 练 v; 的 数据 应 当 不 同 于 用 来 训练 基本 支持 向 量 机 f(x) 
的 数据 ， 以 便 减轻 过 拟 合 。 

与 其 他 分 类 方法 一 样 ， 不 像 通常 那样 构建 天 个 把 一 个 类 与 其 余 类 分 开 的 两 类 SVM 分 类 
器 ， 而 是 构建 K(K-1)72 NZa} (pairwise) 分 类 器 (参见 10.4 节 ) ， 每 个 g(x) 取 C; 类 实例 
标记 为 +1，C; 类 实例 标记 为 -1， 并 且 不 使 用 其 他 类 的 实例 。 一 般 认 为 逐 对 把 类 分 开 是 一 
个 较 简单 的 事 ， 另 外 的 优点 是 由 于 使 用 较 少 的 数据 ， 优 化 更 快 ; 但 要 注意 ， 这 需要 训练 
O( 有 天) 个 而 不 是 O(K) 个 判别 式 。 

在 一 般 情况 下 ,一 对 所 有 和 逐 对 分 开 都 是 把 一 个 多 类 问题 分 解 成 一 组 两 类 问题 的 校正 输 
出 码 ( error-correcting output codes ) 的 特例 ( Dietterich 和 Bakiri 1995) (参见 17.6 节 ) 。 作 为 两 
类 分 类 器 的 SVM 是 两 类 分 类 的 理想 选择 ( Allwein，Schapire 和 Singer 2000) ， 并 且 还 可 以 有 
增 量 方法 ,增加 新 的 两 类 SVM， 以 更 好 地 把 存在 问题 的 一 对 类 分 开 ， 从 而 改善 不 理想 的 
ECOC 和 矩阵 (Mayoraz 和 Alpaydin 1998) 。 

另 一 种 可 能 的 方法 是 设计 一 个 涉及 所 有 类 的 多 类 (multiclass ) 优化 问题 ( Weston 和 Wat- 
kins 1998) : 


min >> Iw +o De (13. 42) 
受 限 于 
对 于 任意 的 关子， WX +w >w twy+2-&, HAE FO 

Ep, 包含 x' 的 类 索引 。 正 则 化 项 同时 减少 所 有 超 平面 的 范 数 ， 而 约束 则 确保 该 类 与 任 
何其 他 类 之 间 的 边缘 至 少 为 2。 正 确 类 的 输出 应 当 至 少 为 +1， 其 他 类 的 输出 应 当 至 少 
为 -1， 而 松弛 变量 用 来 补差 。 

尽管 这 看 上 去 漂亮 ,但 是 一 对 所 有 方法 通常 更 可 取 ， 因 为 它 分 别 解决 KK 个 NN 个 变量 的 
问题 ， 而 多 类 方法 使 用 KN 个 变量 。 


13.10 ”用 于 回归 的 核 机 器 


现在 ， 让 我 们 看 看 如 何 将 支持 向 量 机 推广 到 回归 问题 。 我 们 看 到 相同 的 定义 可 接受 边缘 
的 方法 、 松 弛 变量 ， 综 合 光滑 性 和 误差 的 正则 化 函数 在 这 里 也 能 用 。 我 们 从 线性 模型 开始 ， 
稍 后 我 们 关注 如 何 使 用 核 函 数 : 
f(x) = w'x + wo 
对 于 一 般 的 回归 ， 我 们 使 用 差 的 平方 作为 误差 : 
e(r f(x')) = [rt -f(x') 1 
然而 ， 对 于 支持 向 量 回 归 ， 我 们 使 用 es- 敏 感 损失 函数 : 
ewe! a ee ere 
I-K) | -e 否则 
这 意味 我 们 容忍 高 达 e 的 误差 ， 并 且 超 出 的 误差 具有 线性 而 不 是 平方 影响 。 因 此 ， 这 种 误差 


(13. 43 ) 
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函数 更 能 抵御 噪声 ， 因 而 更 加 鲁 棒 (参见 图 13-6) 。 与 转折 点 损失 一 样 ， 有 一 个 区 域 没 有 误 


Fe, OR STE. 
类 似 于 软 边 缘 超 平面 ， 我 们 引入 松弛 变量 来 处 
H se- 区 域 之 外 的 偏差 ， 并 且 得 到 (Vapnik 1995) : 
min Iwi? CEEE) (13.44) 
受 限 于 
r- (wx +w) <et€, 
(wx +w) -r seté 
E, E S0 
这 里 ， 对 正和 负 的 偏差 ， 我 们 使 用 了 两 种 类 型 的 松 
弛 变量 ， 以 保持 它们 为 正 。 实 际 上 ， 我 们 可 以 把 这 
看 作 两 个 背靠背 加 上 的 转折 点 损失 ， 一 个 用 于 正 松 
弛 ， 一 个 用 于 负 松 弛 。 该 式 对 应 于 式 (13. 43) 中 给 
出 的 e -敏感 损失 函数 。 拉 格 朗 日 方程 是 


L siwi? +C (E+E) 


70 


- Ja [e +ë -r + (wx+w)] 





4 -2 0 2 4 6 8 
平方 误差 函数 和 e- BURR 2E K 
数 。 我 们 看 到 e- 敏感 误差 函数 
不 受 小 误差 的 影响 ， 并 且 受 大 误 
差 的 影响 也 较 小 ， 因 此 对 离 群 点 
EHE 


- Ja [e +ë- (w'x +w) +r']- > Get E tp é) (13.45) 


取 偏 导数 ， 我 们 得 到 





aL t 了 1 t t 了 
mTw- Elaa) = 0>w = È Ca’, - a! x (13. 46) 
ðL, t t EF ta 
ms 5 (ai oe -0 (13. 47) 
L 
Ss Paw > 30 (13. 48) 
ag, 
£ 
s sgod (13. 49) 
ag! 
对 偶 问 题 是 
1 t t s s t s 
Ly = “TÈ È (a-a) Ca’, - aè) (x) "x 
-89 (œ, +a) + ¥ r'(a’,- ai) (13. 50) 
受 限 于 


O<a.<C, OSa sC, J (œ-œ) =0 
一 旦 我 们 求 出 它 的 解 MZA BYR A (tube) 中 的 所 有 实例 都 有 a, =a =0; 这 些 是 
以 足够 精度 拟 合 的 实例 (参见 图 13-7) 。 支 持 向 量 满足 w >0 或 a >0, 并 且 都 是 这 两 种 类 
型 。 它 们 可 能 是 管 边 界 上 的 实例 (a', 或 a 在 0~C 之 间 )， 并 且 我 们 使 用 它们 计算 wo 
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如 ,假定 a, >0, RIA r =x x +w tes WHE e- 管 外 的 实例 是 第 二 种 类 型 这 些 是 没有 
很 好 拟 合 的 实例 (a', =C), WE 13-7 所 示 。 











1.4 ee 
129 3 4 6 8 
图 13-7 “ x” 表示 数据 点 的 拟 合 回归 线 ， 并 显示 了 e- 管 (C=10,， a =0.25)。 有 3 种 情况 : (a) 实 例 在 
管 中 ; (b) 实 例 在 管 的 边界 上 ( 圆 中 的 实例 ); (KAER, BAEK, HE, > 0 ( 方 
框 中 的 实例 ) 。(b) 和 (c) 是 支持 向 量 。 用 对 偶 变量 来 说 , 在 (a) 中 有 wa，=0, a =0; 在 (b) 
中 有 a <C; Ælle) HA a, =C 


使 用 式 (13.46) ， 我 们 可 以 把 拟 合 直线 写成 支持 向 量 的 加 权 和 : 
f(x) =w'x + wy = È (al, - a) x) x + wo (13.51) 
式 (13.50) 中 的 点 积 (x') x’ 也 可 以 用 核 函 数 K(x'，x’) 替 换 ， 并 目 类 似 地 ，(x') 可 以 
用 核 函 数 K(x , x) 替换 ， 并 得 到 非 线 性 拟 合 。 使 用 多 项 式 核 类 似 于 拟 合 一 个 多 项 式 (参见 
图 13-8)， 而 使 用 高 斯 核 (参见 图 13-9) 则 类 似 于 非 参数 光滑 模型 (参见 8.6 节 ) ， 不 同 之 处 
在 于 由 于 解 的 稀 玻 性 ， 我 们 不 需要 整个 训练 集 ， 而 只 需要 一 个 子 集 。 











4 
a) 92=5 





















Ne. ao 

1.5 erga 人 

0 2 4 6 8 

b) s’=0.1 
图 13-8 ”显示 使 用 二 次 核 函数 拟 合 的 回归 线 和 e- 图 13-9 显示 使 用 两 个 具有 不 同 展 宽 的 高 斯 核 拟 

管 (C=10，s=0.25)。 圆 中 的 实例 是 边 合 的 回归 线 和 a- 管 (C=10,e=0.25)。 
缘 上 的 支持 向 量 , 方 框 中 的 实例 是 离 群 圆 中 的 实例 是 边缘 上 的 支持 向 量 , 方 框 
点 支持 向 量 中 的 实例 是 离 群 点 支持 向 量 
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对 于 回归 ， 也 有 一 个 等 价 的 v-SVM( Scholkopf 等 2000) ， 其 中 取代 固定 的 =， 我 们 固定 ， 
来 限制 支持 向 量 的 比例 ， 但 仍然 需要 Co 


13. 11 一 类 核 机 器 


支持 向 量 机 最 初 是 为 分 类 提出 的 ， 通 过 为 回归 线 而 不 是 为 判别 式 附近 的 偏差 定义 松弛 变 
量 ，SVM 被 扩展 到 回归 。 现 在 ,我 们 看 看 
如 何 把 SVM 用 于 一 类 受 限 的 非 监 督学 习 ， 
即 估计 高 密度 区 域 。 我 们 并 不 进行 整个 密 
度 估 计 ， 而 是 想 找 出 把 高 密度 区 域 与 低 密 
度 区 域 分 开 的 边界 (因此 它 像 一 个 分 类 问 
题 ) (Tax 和 Duin 1999 ) 。 这 种 边界 可 以 用 
于 新 颖 性 (novelty ) 或 离 群 点 检测 ( outlier 
detection) ， 这 也 称 作 一 类 分 类 ( one- class 
classification ) 。 


考虑 一 个 中 心 为 a、 半 径 为 R 的 球 。 





我 们 希望 它 围 住 的 密度 尽 可 能 大 ， 其 中 密 0 05 i ts A 
度 根据 经 验 用 训练 集 百 分 比 度 量 。 同 时 ， 图 13-10 一 类 支持 向 量 机 把 光滑 的 边界 (这 里 使 用 线 
与 之 权衡 ， 我 们 希望 找到 最 小 半径 (参见 性 核 本 数 ， 贺 具有 最 小 半径 ) 放 置 在 尽 可 能 
图 13-10) 。 我 们 为 落 在 球 外 的 实例 定义 一 多 地 围 住 实例 的 地 方 。 存 在 3 种 可 能 的 情 


况 :(a) 实 例 是 典型 实例 ;(b)& =0 的 实例 


个 松弛 变量 (只 有 一 种 类 型 的 松弛 变量 ， 因 Sa 
为 我 们 只 有 来 自 一 个 类 的 实例 ， 并 且 对 落 实例 是 离 群 点 。(b) 和 (6) 是 支持 向 量 。 用 
在 球 内 的 那些 实例 没有 处 罚 )， 并且 有 一 个 对 偶 变 量 的 术语 来 说 , 在 (a) 中 有 a’ =0; 
正比 于 半径 的 光滑 性 度量 : 在 (b) 中 有 0<a'<C; El) pHa =C 

mink? + CY ë (13. 52) 
受 限于 


|x -a| SRP +E, 并 且 对 于 任意 的 :有 宇 0 
加 上 这 些 约束 ， 注 意 到 x -a ”= (x' -a)”(x' -a)， 我们 得 到 拉 格 朗 日 方程 : 


L, =R +C E- Da(R+é - [ (x) -2ax +aal)- Yy'é (13.53) 
其 中 S0, y 20 是 拉 格 朗 日 乘 子 。 关 于 参数 求 导 ， 我 们 得 到 





aL , i 
aR 7 2R-2R a =O = Jia = 1 (13. 54) 
ðL t t taut 

ag 7 2 a (2x - 2a) = 一 = Sax (13:55) 
aL 

e =C-a'-y =0 (13. 56) 
0€ 


由 于 yy >=>0， 因 此 我 们 可 以 把 最 后 一 个 约束 写成 : 0Sa <C。 把 这 些 代入 式 (13.53)， 
我 们 得 到 关于 o 最 大 化 的 对 偶 问题 : 
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| 一 F a(x)" “ 一 > J a'a (x ) x (13.57) 
受 限 于 
0<a <C 并 有 Ya=!1 
当 我 们 求解 该 优化 问题 时 ， 再 次 看 到 大 部 分 实例 随 着 它们 的 w =0 消失 ; 这 些 是 落 在 
球体 内 的 典型 、 高 度 相 似 的 实例 (参见 图 13-10)。 有 两 种 类 型 的 支持 向 量 满足 a >0: 满 
足 0<a <C 并 且 落 在 边界 上 的 实例 ，| x -al =R(g& =0)， 这 些 用 来 计算 R。 满 足 
a =C(E >0) 的 实例 落 在 边界 外 ， 是 离 群 点 。 由 式 (13.55 )， 我 们 看 到 中 心 a 是 支持 向 量 
的 加 权 和 。 
于 是 ， 给 定 一 个 检验 输入 x， 我 们 说 它 是 离 群 点 ， 如 果 
x-a]? > R 
或 
x'x —2a'x +a'a > R? 
(ERRA, FATT PT MAAR BR PER, ME DA ee SOE AR ORE A PR BOE 
换 ， 我 们 得 到 ( 受 限 于 相同 的 约束 ) : 
Li = Yia'K(x',x') - ¥ X aa K(x x) (13. 58) 
例如 ， 使 用 二 次 多 项 式 核 可 以 使 用 任意 的 二 次 曲面 。 如 果 使 用 高 斯 核 ( 参 见 式 (13.30) ) , 
则 我 们 有 局 部 球 的 并 。 我 们 把 x 作为 离 群 点 而 拒绝 ， 如 果 
K(x,x) -2 F a'K(x,x') + > F aia’ K(x' x") > R 
第 三 项 不 依赖 于 x， 因 此 它 是 常量 (我 们 把 它 用 作 等 量 ， 以 便 求解 R， 其 中 x 是 边缘 上 
的 实例 ) 。 在 高 斯 核 的 情况 下 ，K(x,，x) =1， 该 条 件 约 简 为 对 某 个 常数 Re, 
Sak (xx) < Re 
除了 解 的 稀 玖 性 之 外 ， 这 类 似 于 具有 概率 密度 阐 值 Re 的 核 密度 估计 (参见 8.2.2 他， 参见 
图 13-11)。 








2 2 
15 1.5 
1 K 1 
0.5 0.5 
0 i 2 0 1 2 
a) s’=] b) s*=0.1 


图 13-11 使 用 具有 不 同 展 宽 的 高 斯 核 的 一 类 支持 向 量 机 


一 类 支持 向 量 机 表示 也 有 一 种 替代 的 、 等 价 的 v-SVM 类 型 ， 它 使 用 光滑 的 标准 型 Iw | 
(Scholkopf 4 2001 ) 。 
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13.12 ERA 


FH 6.3 节 我 们 知道 ， 通 过 投影 到 协 方差 矩阵 三 的 具有 最 大 特征 值 的 特征 回 量 上 ， 主 成 
分 分 析 (PCA) 降 低 维度 。 如 果 数 据 实例 是 中 心 化 的 (E[x] =0) ， 则 这 可 以 记 作 天 下。 在 核 版 
本 中 ,我 们 在 B(x) 的 而 不 是 在 原 x 的 空间 处 理 ， 因 为 通常 这 个 新 空间 的 维度 d 可 能 比 数据 
集 的 大 小 N 大 得 多 ,我们 宁愿 使 用 N xN 的 矩阵 XX "， 而 不 愿 使 用 d x dE XTX, BOY 
后 的 数据 矩阵 是 多 =p(X)， 因 此 我 们 在 DD 特征 向 量 上 处 理 ， 并 进而 在 核 矩 阵 K 的 特征 
问 量 上 处 理 。 

核 PCA( kernel PCA ) 使 用 核 矩 阵 的 特征 向 量 和 特征 值 ， 而 这 对 应 于 在 o Cx) 空间 中 做 线 
性 维 归 约 。 当 c; ALA, 对 应 于 特征 向 量 和 特征 值 时 ， 投 影 后 新 的 左 维 值 可 以 用 下 式 计 算 : 

z= JAG, = 

图 13-12 给 出 了 一 个 例子 ， 其 中 首先 使 用 二 次 核 ， 然 后 使 用 核 PCA 把 维度 (从 五 维 ) 降 
到 二 维 ， 并 在 那里 实现 线性 SVM。 注意 ， 在 一 般 情况 下 (例如 使 用 高 斯 核 ) ， 特 征 值 不 一 定 
衰减 ， 并 且 不 能 保证 可 以 使 用 核 PCA 降低 维度 。 











b) z 空 间 中 的 一 次 核 


图 13-12 不 使 用 原 空间 中 的 二 次 核 (a) ， 而 使 用 二 次 核 值 上 的 核 PCA 映射 到 二 维新 空间 ， 其 中 我 们 
使 用 线性 判别 式 (b) ; (五 维 中 的 ) 这 两 维 贡 献 了 方差 的 80% 


这 里 ,我 们 使 用 核 值 作为 相似 度 值 进行 多 维 定 标 (参见 6.5 节 )。 例 如 ， 取 k=2， 我 们 
可 以 在 被 核 矩 阵 导出 的 空间 中 观察 数据 ， 这 可 以 让 我 们 看 到 所 使 用 的 核定 义 的 相似 性 效果 如 
何 。 线 性 判别 分 析 (LDA) 也 可 以 类 似 地 核 化 (参见 6. 6 节 )(Miiller 等 2001) 。 

第 6 章 我 们 讨论 了 非 线性 维度 归 约 方法 Isomap 和 LIE。 事 实 上 ， 把 式 (6.47) PRAE 
阵 的 元 素 看 作 输 入 对 的 核 估计 值 ，LLE 可 以 看 作 选 择 了 特定 核 的 核 PCA。 当 核 函数 定义 为 图 
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中 测 地 距离 时 ， 这 一 结论 对 Isomap 也 成 立 。 
13. 13 注释 


通过 非 线 性 基 函 数 把 数据 映射 到 新 空间 来 推广 线性 模型 的 思想 由 来 已 入 ， 但 是 支持 向 量 
机 的 新 颖 性 之 处 是 把 这 一 思想 集成 到 学 习 算 法 中 ， 该 学 习 算 法 的 参数 用 数据 实例 子 集 定 义 
(所 谓 对 偶 表 示 ( dual representation) ) ， 因 此 也 不 需要 显 式 地 计算 基 函 数 ， 从 而 训练 集 的 大 小 
就 限制 了 计算 复杂 度 。 对 于 高 斯 过 程 也 是 如 此 ， 高 斯 过 程 中核 函 数 称 作协 方差 函数 (参见 
14.4 75), 

fie ra VE de Bj AU 所 最 近邻 和 Parzen 窗口 或 高 斯 过 程 这 样 的 非 参 数 估 计 相 比 ， 核 
方法 更 具 优势 ， 并 且 使 用 核 函 数 的 灵活 性 使 得 我 们 能 够 处 理 非 向 量 数据 。 由 于 优化 问题 存在 
唯一 解 ， 因 此 不 需要 像 神经 网 络 那样 使 用 欠 代 优化 过 程 。 由 于 所 有 这 些 理由 ， 支 持 向 量 机 现 
在 被 看 作 最 好 的 现成 学 习 器 ， 并 被 广泛 地 用 于 许多 领域 ， 特 别 是 生物 信息 学 ( Schilkopf， 
Tsuda 和 Vert 2004 ) 和 自然 语言 处 理应 用 ， 在 这 些 领域 中 正在 开发 越 来 越 多 的 技巧 来 得 到 核 
图 数 (Shawe Taylor 和 Cristianini 2004) 。 

核 函数 的 应 用 意味 着 不 同 的 数据 表示 ; 我 们 不 再 只 是 把 实例 (对 象 或 事件 ) 本 身 定义 成 
属性 的 向 量 ， 而 是 依据 它 与 其 他 实例 的 相似 或 差异 程度 来 定义 它们 ; 这 类 似 于 使 用 距离 矩阵 
(不 必 知 道 如 何 计 算 ) 的 多 维 定 标 和 使 用 某 空间 中 向 量 的 主 成 分 分 析 之 间 的 差别 。 

关于 支持 向 量 机 的 更 多 信息 可 以 在 Vapnik( 1995, 1998) Schölkopf 和 Smola(2002 ) 的 书 
中 找到 。Cherkassky 和 Mulier 1998 中 关于 SVM 的 一 章 是 非常 值得 一 读 的 导论 。Burges 1998 、 
Smola 和 Schélkopf 1998 分 别 是 SVM 分 类 和 回归 的 优秀 指南 。 有 一 个 专门 的 网 站 http :V 
www. kernel- machines. org 和 许多 免费 软件 包 ， 如 SVMlight( Joachims 2004 ) 和 LIBSVM ( Chang 
和 Lin 2008 ) 。 


13.14 习题 

1. 提出 一 种 过 滤 算 法 ， 找 出 非常 可 能 不 是 支持 向 量 的 训练 实例 。 

2. 在 式 (13.31) 中 ， 如 何 估计 S? 

3. 在 经 验 核 映射 中 ， 如 何 选择 模板 ? l 

4. 在 式 (13.40) 的 局 部 化 多 核 中 ， 为 n;(x | 6:) 提出 一 个 合适 的 模型 ， 并 讨论 如 何 训练 它 。 

5. 在 核 回 归 中 ， 与 噪声 方差 之 间 有 何 关 系 ? 

6. 在 核 回 归 中 ， 在 偏 傈 和 方差 中 使 用 不 同 的 e 有 什么 影响 ? 

7. 如 何 对 分 类 使 用 一 类 SVM? 

8. 在 如 图 13-12 的 情况 中 ， 使 用 用 高 斯 核 的 核 PCA, 

9. 假定 我 们 有 相同 对 象 的 两 种 表示 ， 并 且 相 互 关联 ， 我 们 有 不 同 的 核 。 使 用 核 PCA， 如 何 


使 用 这 两 种 表示 实现 联合 维度 归 约 ? 
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贝 叶 斯 估计 





在 贝 叶 斯 方法 中 ， 我 们 把 参数 看 作 具 有 先 验 分 布 的 随机 变量 。 我 们 继续 4. 4 节 中 断 的 讨 
沦 ， 并 讨论 3 种 情况 : 估计 分 布 的 参数 、 佑 计 模 型 的 参数 和 高 斯 过 程 。 


14.1 引言 


当 我 们 有 关于 参数 的 某 些 先 验 信息 时 ， 可 以 使 用 贝 叶 斯 估计 (Bayesian estimation ) 。 例 
如 ， 在 观察 样本 估计 分 布 的 均值 凡 之前， 我 们 可 能 有 先 验 知识 ， 知 道 均 值 接近 于 2， 在 1 和 
3 之 间 。 当 我 们 只 有 小 样本 时 ， 这 种 先 验 知 识 特别 重要 。 在 这 种 情况 下 ， 我 们 感 兴趣 的 是 把 
数据 告诉 我 们 的 ( 即 由 样本 计算 的 值 ) 与 我 们 的 先 验 信息 结合 。 

4.2 节 讨 论 的 最 大 似 然 方法 将 参数 看 作 未 知 的 常量 。 在 贝 叶 斯 估计 中 ， 正 如 我 们 在 4.4 
节 开 始 讨论 的 ， 参 数 被 看 作 一 个 随机 变量 ,使 得 我 们 可 以 使 用 先 验 概率 分 布 (prior probability 
distribution ) 对 任何 先 验 信息 编码 。 例 如 ， 知 道 j 很 可 能 在 1 和 3 之 间 ， 我 们 可 以 这 样 记 
P(A) ， 其 密度 的 大 部 分 落 在 区 间 [1，3] 。 

使 用 贝 叶 斯 规则 ， 我 们 把 先 验 与 似 然 结 合 在 一 起 ， 并 计算 后 验 概率 分 布 ( posterior proba- 
bility distribution) : ' 


p(0|X) = Ore (14. 1) 


P(6) 是 先 验 密度 ， 它 是 我 们 在 考察 样本 之 前 知道 的 8 可 能 的 取 值 。p(X | 9) 是 样本 似 然 
(sample likelihood) ， 它 告诉 我 们 如 果 分 布 的 参数 取 plo) 
该 0 值 , 样本 X 有 多 大 可 能 出 现 。 例 如 ， 如 果 样 本 ee 
中 的 实例 落 在 5 与 10 Z0, WBA a 为 7 则 这 种 样 


本 是 可 能 的 , BA u 为 3 则 不 大 可 能 ， 而 为 1 则 
更 不 可 能 。 分 母 中 的 p(X) 是 正规 化 子 ， 以 确保 后 


验 (posterior)p(g |X) 的 积分 等 于 1。p(9 |X) LEK 
后 验 概率 ， 因 为 它 告诉 我 们 在 看 到 样本 之 后 0 取 特 
定 值 的 可 能 性 有 多 大 。 贝 叶 斯 规则 取 先 验 分 布 ， 


把 它 与 数据 揭示 的 结合 在 一 起 ， 并 产生 后 验 分 布 。 图 :41 这 是 一 个 生成 图 模型 。 弧 是 抽样 方向 


然后 ,我们 在 稍 后 的 推断 中 使 用 这 个 后 验 分 布 。 首先 由 p(0) 选 9， 然后 通过 从 pl | 0) 
例如 ， 假 设 我 们 有 从 具有 某 个 未 知 参数 9 的 6， 新 实例 * 和 
分 布 中 提取 的 旧 样 本 X。 然 后 ， 我 们 可 以 再 抽取 X 是 独立 的 : 这 是 独立 同 


ny ` r ~ y 分 布 假设 。 如 果 我 们 不 知道 6, 则 它们 
一 个 实例 *， 并 计算 它 的 概率 分 布 。 我 们 可 以 把 是 依赖 的 :我们 使 用 贝 叶 斯 规则 由 给 


这 形象 地 表示 为 一 个 图 模型 (参见 第 16 章 )， 如 定 的 XX( 用 阴影 显示 ) 推 断 9， 这 逆转 了 
图 14-1 所 示 ， 描 绘 的 是 一 个 生成 模型 ( generative 方向 以 便 计算 p(9 |X), REMER 
model) ， 它 表示 数据 如 何 生 成 : 首先 由 p (0) 选 填充 x 
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909， 然后 把 它 用 于 样本 X， 再 用 于 新 实例 x*。 我 们 把 联合 概率 表示 成 
p(x,X,0) = p(0)p(X|0)p(x|0) 
给 定 以 往 的 样本 XxX， 我 们 用 它 估计 新 实例 x 的 概率 : 


p(x|X) = p(«,X) ; | p(x,X,0)do : | p(0)p(xX | 0) p(x | 9)db 
p(X) p(X) p(X) (14.2) 
= [p0p |) doe 
在 计算 p(9|XX) 时 ， 贝 叶 斯 规则 允许 我 们 首 转 弧 的 方向 并 做 诊断 推理 。 然 后 ， 推 断 出 的 
9 的 分 布 用 来 导出 新 x 的 预测 分 布 。 


我 们 看 到 ， 我 们 的 估计 是 6 所 有 可 能 值 估计 的 加 权 和 (如 果 9 是 离散 值 ， 则 我 们 用 > 





替换 [49 ) ， 权 重 是 给 定 X，9 的 可 能 性 。 


这 是 完全 贝 叶 斯 处 理 (full Bayesian treatment); 如 果 后 验 概率 不 容易 求 积 分 ， 则 这 样 做 
或 许 不 可 能 。 正 如 我 们 在 4. 4 节 看 到 的 ， 在 最 大 化 后 验 ( Maximum A Posteriori, MAP) 估计 
中 ， 我 们 使 用 后 验 的 众 数 : 

Oar = arg maxp(0 |X) 并 puae(x |X) = p(x | Omar) 

MAP 估计 对 应 于 假定 后 验 在 单 点 ( 即 众 数 ) 附近 制造 很 窄 的 尖峰。 如 果 先 验 P(6) 在 所 有 
的 9 上 是 均匀 的 ， 则 后 验 p(91X) 的 众 数 与 似 然 p(X|9) 的 众 数 在 同一 点 上 ， 并 且 MAP 估计 
与 最 大 似 然 (maximum likelihood，ML) 估计 等 价 。 这 意味 使 用 ML 对 应 于 假定 9 的 不 同 值 之 
间 没 有 先 验 分 布 。 

现在 ， 让 我 们 看 看 贝 叶 斯 估计 如 何 用 于 不 同 的 分 布 和 应 用 类 型 。 


14.2 分布 参数 的 估计 
14.2.1 ”离散 变量 


假定 每 个 实例 都 是 一 个 多 元 变量 ， 取 KK 个 不 同 状 态 之 一 (参见 4.2.2 节 )。 我 们 说 x; = 
1， 如 果实 例 i 在 状态 i 中 ,并且 对 于 任意 j 关 i, x，=0。 参 数 是 状态 的 概率 g =[ gl，9q;，…， 
grl”; 其 中 g,(i=1， a KK) 满足 qi 三 0， 并 且 Èa = I's 

样本 似 然 是 


P(X19) = Me 
我 们 使 用 的 先 验 分 布 是 犹 利克 雷 分布 ( Dirichlet distribution ) 


E T (a) i 
= Ma) Ta E 


其 中 ， a=[a, aaa ax |", 并 且 Qo = Ya Qi 是 先 验 参 数 ， 称 作 超 参 数 ( hyperparame- 
ter), C(x) 4m Až (Gamma function), EXX 
T(x) = f e*u 


Dirichlet(q | œ) 
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例如 ，x* 可 以 对 应 于 新 闻 文 档 ， 状 态 可 以 对 应 于 天 个 不 同 的 新 闻 类 别 : 体育 、 政 治 、 
艺术 等 。 于是， 概率 q 对 应 于 不 同类 别 新 闻 所 占 的 比例 ， 而 关于 它们 的 先 验 使 得 我 们 可 以 
对 这 些 比例 的 先 验 编码 。 例 如 ， 我 们 可 以 预期 与 体育 相关 的 新 闻 比 与 艺术 相关 的 新 闻 更 多 。 

给 定 先 验 和 似 然 ， 我 们 可 以 导出 后 验 
p(q\X) « p(X|q)p(qla) « Thar (14.3) 


其 中 ，Ni = oe o FNAB AA SFA IBS, FFA ATI A CR A KA 


(conjugate parha 先 验 和 似 然 都 是 9 TRER; 并 且 我 们 可 以 把 它们 结合 以 构成 后 验 
T(ao +N) oe a 
p(q|X) = “Hagia OTN = Dirichlet(q |æ +n) (14.4) 
其 中 ， n=[N,, my Mel's 2 Ni 一 No 


观察 式 (14.3) 我 们 可 以 得 到 超 参 数 w; 的 一 种 解释 (Bishop 2006). TEA n; 是 入 个 样本 中 状 
AS i 出 现 的 次 数 一 样 ， 我们 可 以 将 a 看 作 在 a 个 实例 的 某 个 假想 样本 中 状态 i 出 现 的 次 数 。 
在 定义 先 验 时 我 们 主观 地 认为 : 在 a 的 样本 中 ， 我 们 期 望 它们 之 中 的 a; 个 属于 状态 i。 注 意 ， 
较 大 的 a 意味 着 对 我 们 的 主观 比例 有 较 高 的 置信 度 (更 尖 的 分 布 ) : 我 们 期 望 100 次 出 现 中 的 
60 次 属于 状态 1 的 置信 度 比 期 望 10 次 出 现 中 的 6 次 属于 状态 1 的 置信 度 高 。 于 是 ， 后 验 是 另 
一 个 狄 利克 雷 ， 它 对 分 别 由 先 验 和 似 然 给 定 的 想象 和 实际 状态 出 现 的 次 数 求 和 。 

共 固 性 具有 很 好 的 含义 。 在 顺序 情况 下 ， 我 们 接收 实例 序列 。 因 为 后 验 与 先 验 具有 相同 
的 形式 ， 因 此 当前 后 验 由 过 去 的 所 有 实例 累积 信息 ， 并 且 成 为 下 一 个 实例 的 先 验 。 

当 变 量 是 二 元 时 ，x' e 10，11 ， 多 元 样本 变 成 贝 努 利 

p(Xlgq) = [70 -a 
并 且 狄 利克 雷 先 验 归 约 为 贝塔 分 布 (beta distribution) 
peta(g lay) = EEB ge icy -9 

例如 ，x' 可 以 为 0 或 1， 取 值 依赖 于 大 小 为 N 的 随机 样本 中 索引 为 上 的 电子 邮件 是 正常 
邮件 还 是 垃圾 邮件 。 于 是 ， 定 义 g 上 的 先 验 使 得 我 们 可 以 对 垃圾 邮件 出 现 的 概率 定义 先 验 信 
念 : 在 平均 情况 下 ,我 们 预料 电子 邮件 中 有 ”。 
a/ (a +B) 封 是 垃圾 邮件 。 

TUS BIE, IFAM FR MRI 5 
得 到 

plq |A,N,a,B) aS a *C4 = pee 
其 中 4 = yx ， 并 且 再 次 看 到 我 们 组 合 了 想 3 
象 和 实际 样本 中 的 出 现 。 注 意 , 当 aw=B=1 ， 
时 ， 有 均匀 先 验 ， 并 且 后 验 与 似 然 有 相同 的 形 wee be 
状 。 随 着 这 两 个 计数 (无 论 是 关于 先 验 的 w 和 Io 
B， 还 是 关于 后 验 的 w+4 和 有 B+N-4) 的 增加 LO ea, oe 
和 它们 之 差 的 增加 ， 我 们 得 到 具有 更 小 方差 的 0 0.2 0.4 0.6 0.8 
更 尖 分 布 ( 参 见 图 14-2) 。 随 着 我 们 看 到 更 多 图 14-2 KFC, B) 的 贝塔 分 布 图 






\ beta (20,30) 


beta (1,1) 





Nos. beta (2,3) 
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的 数据 (想象 的 或 实际 的 ) ， 方 差 减 小 。 
14.2.2 连续 变量 


现在 我 们 考虑 实例 是 高 斯 分 布 p(x) ~N(u, P), BRE u Alo’ 的 情况 ; 我 们 已 经 在 
4.4 节 简略 讨论 过 。 样 本 似 然 为 
pz(Xluwo) = II 
t TO 
u WRM ACME aT p(w) ~ 和 N(jwo,00) ， 并 且 后 验 写作 
p(w |X) < pp(XIn) ~ Nun,on) 





exp] - Se] (14. 5) 





其 中 
o No? (14.6 
= + 5 
My No? + we No? + mark ) 
1 l N 
se tS (14.7) 


其 中 m = Sox /N REACH. RNASE ee RE DU Th ey, Ae EL 


po 和 样本 均值 m 的 加 权 平 均 ， 其 中 权重 与 它 14 

们 的 方差 成 反比 (例子 参见 图 14-3) 。 注 意 ， 

因为 两 个 系数 都 在 0 和 1 之 间 并 且 其 和 为 1， 

所 以 jw 总 是 在 jo Alm 之 间 。 当 样本 规模 N | 

或 先 验 oo 的 方差 大 的 时 候 ， 贝 叶 斯 估计 接近 08 

Fm, 更 多 地 依赖 样本 提供 的 信息 。 当 oo 小 06 

时 ， 即 当 我 们 对 正确 值 先 验 的 不 确定 性 较 小 

时 ,或 当 我 们 有 小 样本 时 ,我 们 的 先 验 猜测 

Ho 具有 更 大 影响 。 ae 
当 oo 或 o 变 小 , RN BK, oy Bo 。 se = 2 人 

还 要 注意 ,ow 小 于 oo 和 o/VN， 即 后 验方 差 A 

小 于 先 验 方差 和 m HI. He Me E eee ards Of). 

合 在 后 验 估计 中 比 单独 使 用 先 验 或 样本 更 好 。 GWE p(w |X) ~N(5.7, 0.37) 
对 于 方差 ,我 们 处 理 的 精度 (prcision ) 是 

方差 的 倒数 ，A 二 1/o”。 使 用 这 一 事实 ， 样 本 似 然 写 成 


1. 


N 








2 Ara 7 
p(X |A)= I ee |= a 一 凡 ) | 
= A”? (2m) “exp | -AF (x! -p)?| (14.8) 


Kae SE Be FG E n 3 Ah ( Gamma distribution ) : 
pti) ~ Gamal aat = Fay tia exp -hA 


而 后 验 是 
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p(A |X) œ p(X|A)p(A) ~ Gamma(ay,by) 
其 中 


ay = a, + N/2 (14.9) 


by = by + x? 
其 中 s = 》 (x' -p)?/N 是 样本 方差 。 我 们 再 一 次 看 到 后 验 估计 是 先 验 和 样本 统计 量 的 加 权 和 。 
14.3 函数 参数 的 贝 叶 斯 估计 


现在 ， 我 们 对 回归 和 分 类 讨论 参数 估计 ， 不 讨论 分 布 的 参数 ， 而 是 讨论 输入 的 某 个 函数 
的 参数 。 我 们 的 方法 仍然 是 将 这 些 参 数 看 作 具 有 一 种 先 验 分 布 的 随机 变量 ， 并 使 用 贝 叶 斯 规 
则 计算 后 验 分 布 。 然 后 ， 或 者 求 积分 、 近 似 它 ， 或 者 使 用 MAP 估计 。 
14.3.1 回归 


让 我 们 考虑 线性 回归 模型 的 情况 
r=wx+e, 其 中 e ~ N(0,B') (14. 10) 
HF g 是 加 法 噪声 的 精度 。 
参数 是 权重 w， 并 且 我 们 有 样本 X= [a's riho 其 中 xeR*,，r'eR。 我 们 可 以 把 xX 分 
解 成 输入 矩阵 和 期 望 输出 的 向 量 X = [ 环 ，r] 。 由 式 (14. 10) ， 我 们 有 
p(r'|x',w,B) ~ N(w'x,B") 
前 面 ， 在 4. 6 节 我 们 看 到 对 数 似 然 是 
LY |w) = log p(X |w) = log p(r,X |w) 
= log p(r|X,w) + log p(X) 
其 中 第 二 项 是 常数 ， 独 立 于 参数 。 我 们 把 第 一 项 展开 成 
£(r|X,w,B) = log [Tec | x',w,B) 


=- N log ( /2m) +N log B - ÊD (r - w'x')? (14.11) 
对 于 ML 估计 ， 我 们 找 出 最 大 化 上 式 的 w， 或 等 价 地 ， 最 小 化 上 式 的 最 后 一 项 ， 即 误差 
的 平方 和 ， 该 项 可 以 改写 为 
E = (r -Xw)"(r - Xw) 
关于 w 求 导 并 令 它 等 于 0， 我们 得 到 最 大 似 然 估计 (5. 8 节 曾 经 推导 出 它 ) : 


Wy, = (X'X) 'X'r (14. 12) 
计算 出 参数 之 后 我 们 就 可 以 做 预测 。 给 定 新 的 输入 x'， 计 算得 到 的 响应 为 
r = wx’ (14. 13) 


对 于 非 线性 模型 g(x | w) ， 例 如 对 于 多 层 感知 器 ， 其 中 w 是 权重 ， 我 们 使 用 梯度 下 降 最 
小 化 


E(x |w) = [r -g(x |w)]? 
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并 且 将 最 小 化 上 式 的 wiso 称 作 最 小 二 乘 估 计 子 (least square estimator), Fie, HMA 
式 计算 : 
r = g(x | wiso) 
在 贝 叶 斯 方法 的 情况 下 ， 对 于 参数 ， 我 们 定义 一 个 高 斯 先 验 ( Gaussian prior) : 
p(w) ~ N(0,a 站 
它 是 共 因 先 验 ， 并 且 对 于 后 验 ， 我们 得 到 
p(w |X) ~ N(pn,En) 
其 中 
py = BEvX'r (14. 14) 
Ey = (al + BX'X)"! (14. 15) 
为 了 计算 总 输出 ， 我 们 在 后 验 上 积分 
re [wzp(w |x) dw 
如 果 我 们 想 用 点 估计 ， 则 MAP( 或 贝 叶 斯 ， 因 为 后 验 是 高 斯 的 ) 估计 是 
Wup = My = Bal + BX'X) 'X'r (14. 16) 
并 且 我 们 将 密度 蔡 换 成 单 点 ， 即 均值 
T! = WihapX’ 
方差 为 
Var(r’) = PB! + (x') Snr (14. 17) 
将 式 (14. 16) 与 式 (14. 14) 的 ML 估计 进行 比较 ， 这 可 以 看 作 正 则 化 一 一 我 们 在 对 角 线 
增加 了 一 个 常数 项 w， 以 便 使 得 矩阵 可 逆 。 
先 验 p(w) ~N(0，a 站) 表明 我 们 期 望 参数 接近 于 0， 展 宽 与 a 成 反比 。 当 a 一 0 时 ， 
我 们 有 平坦 的 先 验 ， 并 且 MAP 估计 收敛 于 ML 估计 。 
在 图 14-4 中 我 们 看 到 ， 如 果 增 大 a， 则 迫使 参数 更 接近 0， 并 且 后 验 分 布 移 近 原点 并 收 
缩 。 如 果 减 小 6， 则 假定 噪声 具有 高 方差 ， 并 且 后 验 也 具有 高 方差 。 
如 果 我 们 取 后 验 的 对 数 ， 则 有 
log p(w | X,r) œ log p(X,r|w) + log p(w) 
cc log p(r|X,w) + log p(w) 
aye = wx’)? = aw © +c 
我 们 对 其 最 大 化 ， 以 得 到 MAP 估计 。 在 一 般 情 况 下 ， 给 定 模型 g(x |w) ， 我 们 可 以 写 一 个 
增 广 的 误差 函数 
E(w |X) = ol - g(x'|w)]? P+ayui 
其 中 和 =a/B。 在 统计 学 中 ， 这 称 作 参 数 收缩 (parameter shrinkage) BS 归 (ridge regression ) , 
在 4.8 节 ， 我 们 称 为 正则 化 (regularization ) ， 而 在 11.9 节 ， 我 们 称 这 为 神经 网 络 中 的 权 衰 减 
(weight decay) 。 第 一 项 是 似 然 的 负 对 数 ， 而 第 二 项 是 处 罚 远离 0 的 w, 正如 先 验 的 æ 所 示 ) o 
尽管 这 种 方法 减少 > wi ,但 是 它 并 不 强制 个 体 w; 为 0， 即 它 不 能 用 于 特征 选择 ， 也 就 
是 说 ， 不 能 用 于 决定 哪些 x; 是 宛 余 的 。 为 此 ， 可 以 使 用 利用 万 范 数 而 不 是 L, 范 数 的 拉 普 拉 
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斯 先 验 (Laplacian prior) ( Figueiredo 2003 ) : 
p(wla) = II Fexp( -alw|) = ($) ep(- al | w; | ) 


a=1,p=2 先 验 后 验 
3 2 2 
ere \ 
= 0 = 0 
1 
0 5 -2 0 2 -2 0 2 
Wo Wo 
a=10, B=2 先 验 后 验 


0 5 -2 0 2 -2 0 2 
wo wo 
a=1,fs=1 先 验 后 验 
3 2 2 
2 \ 
= 0 = 0 
1 
0 5 -2 0 2 -2 0 2 
wo wo 


图 14-4 不 同 a 和 6 值 的 贝 叶 斯 线性 回归 。 左 边 :“ x "是 数据 点 ， 直 线 是 ML 解 ， 还 用 
虚线 显示 了 具有 一 个 标准 差 的 误差 条 线 的 MAP 解 。 中 间 : 中 心 在 0、 方 差 为 
1/a 的 先 验 密度 。 右 边 : 后 验 密度 ， 其 均值 是 MAP 解 。 我 们 看 到 ， 当 增 大 a 
时 ， 先 验 的 方差 收缩 ， 并 且 线 移 向 平坦 的 0 线 。 当 B 减 小 时 ， 假 定 有 更 多 的 噪 
E, 并且 后 验 密度 具有 较 高 方差 


后 验 概率 不 再 是 高 斯 的 ， 而 MAP 估计 通过 最 小 化 下 式 找 出 : 
Bi (WIX) = E C w'e')? 4207S, lw 

其 中 o 是 噪声 方差 (对 此 我 们 插入 我 们 的 估计 )。 这 称 作 lasso (least absolute shrinkage and 
selection operator) (Tibshirani 1996)。 为 了 明白 为 什么 L AIRT RHE, RNS BATE 
[w,, w,]” 的 情况 (Figueiredo 2003): || [1, 0]7 a= | (142, 142]7 | ,=1 mI [1, 0]” 
|, =1 << (142, 14/2)" ||, =v2, KE L 更 倾向 于 置 w 为 0 并 使 用 较 大 的 ww ， 而 不 是 让 
它们 都 取 较 小 的 值 。 
14.3.2 ” 基 函 数 或 核 函数 的 使 用 

使 用 式 (14. 14) 的 贝 叶 斯 估计 ， 预 测 可 以 表示 为 
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r'= (x')'w 
= B(x')"S,X'r 
= $ Bx) Ser 
这 是 对 偶 表 示 (dual representation ) 。 当 我 们 可 以 用 训练 数据 ， 或 像 支持 向 量 机 (参见 第 
13 章 ) 那 样 用 训练 数据 的 一 个 子 集 表 示 参 数 时 ， 我 们 可 以 把 预测 写成 当前 输入 和 过 去 数据 的 
函数 。 我 们 可 以 表示 为 
r' = 》 K(x',x')r (14.18) 
其 中 ， 我 们 定义 
K(x',x') = B(x)" Epyx" (14. 19) 
我 们 可 以 推广 式 (14. 19) 中 的 线性 核 ， 使 用 非 线 性 基 函 数 h(x) 映射 到 新 空间 ， 在 新 空 
间 中 我 们 拟 合 线性 模型 。 在 这 种 情况 下 ， 我 们 有 上 左 维 (x) MAE d Ex, Hp k ERR 
的 个 数 ， 并 且 我 们 有 N xk SERRE D, MAE N xd WREE X. 
在 检验 期 间 ， 我 们 有 
r= o(x')'w, #4 w = BEs®Br, = (al + BO) 
= B(x) Etr 
= 》 Bol) Ehol )r 
= 5 K(x" a")? (14. 20) 
其 中 ， 我 们 定义 
K(x',x') = Bh(x') Ehol) (14. 21) 
作为 等 价 核 。 这 是 B(x) 的 空间 中 的 对 偶 表 示 。 我 们 可 以 将 估计 表示 成 训练 集中 实例 影响 的 
加 权 和 ， 其 中 影响 由 核 函 数 K(x’, x) 给 定 ; 这 类 似 于 我 们 在 第 8 章 讨 论 的 非 参 数 的 核 光 
滑 ， 或 第 13 章 的 核 机 器 。 
误差 条 线 可 以 用 下 式 定 义 
Var(r’) = B + p(x') ZN 办 (x) 
对 于 线性 、 二 次 核 、 四 次 核 ， 图 14-5 给 出 了 一 个 例子 。 
正如 在 回归 中 我 们 可 以 在 原 x 或 p(x) 上 处 理 一 样 ， 在 贝 叶 斯 回归 中 ， 我们 也 可 以 在 预 
处 理 过 的 B(x) 上 处 理 ， 定 义 该 空间 中 的 参数 。 本 章 稍 后 我 们 将 考察 高 斯 过 程 ， 在 该 过 程 中 
我 们 可 以 直接 定义 和 使 用 K(x，x') ， 而 不 必 计 算 h(x). 


14.3.3 贝 叶 斯 分 类 


在 两 类 问题 中 ， 我 们 有 单 输出 ， 并 且 假定 为 线性 模型 ， 则 有 
P(C, |x') = y' = sigmoid(w'x') 
贝 努 利 样本 的 对 数 似 然 为 
L(r|X) = 之 ”log7 + (1 -r') log (1 -y‘) 
例如 ， 我 们 使 用 梯度 下 降 最 大 化 它 ， 或 最 小 化 它 的 负 对 数 ( 互 炉 ) ， 得 到 ML 估计 。 这 称 作 这 
辑 斯 请 判别 式 (logistic discrimination ) (参见 10.7 节 ) 。 
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4 5 6 7 8 
a) 线性 (a=1, B=1) 





c) 四 次 


图 14-5 ”使 用 具有 一 个 标准 差 误 差 条 线 核 的 贝 叶 斯 回归 : (a) 线 性 : (x) =[1，z]7; (b) 二 
K: lx) =[1, x, 2)"; (ec) 四 次 : @(x) =[1, x, 2, x, x ]" 


在 贝 叶 斯 方法 中 ， 我 们 假定 高 斯 先 验 
p(w) = N(m,,Sy) (14. 22) 
而 后 验 的 对 数 为 
log p(w |r,X) œ log p(w) + log p(r|w,X) 


1 f 
=- 3w —m,)'S;'(w - m,) 
+ Drlogy + (1 - 7) log (1 -y') +e (14. 23) 


这 个 后 验 分 布 不 再 是 高 斯 的 ， 并 且 我 们 不 能 精确 地 求 积分 。 我 们 可 以 使 用 拉 普 拉 斯 近似 
(Laplace approximation) ， 方 法 如 下 ( MacKay 2003) 。 假 设 我 们 想 要 近似 某 个 分 布 作 x) ， 不 必 
是 规范 化 的 (积分 为 1)。 在 拉 普 拉 斯 近似 中 ,我们 找 出 x) 的 众 数 x。， 拟 合 一 个 中 心 在 x 
的 高 斯 函数 g(x) ， 而 后 如 果 我 们 想 要 积分 ， 就 在 拟 合 的 高 斯 函数 上 积分 。 为 了 得 到 该 高 斯 
的 方差 ， 我 们 考虑 所 .) 在 * =xo 处 的 泰勒 展 式 


log f(x) = log f(x) = a(x = a9)? + 
其 中 
a=- slog f(a) lss 
注意 ， 第 一 项 (线性 项 ) 消失 ， 因 为 在 众 数 上 的 一 阶 导 数 为 0。 取 指数 我 们 得 到 
fx) = flx)exp | - F(x -0)? | 

为 了 规范 化 岂 x) ， 我 们 考虑 高 斯 分 布 

1 a 2 a 2 = Je, 
Sl Farr l= re -和 ) | ax = 1= fexp | - (x - xo) | ax = a/2T 
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因此 
q(x) = Va/2mexp [ 一 ais - x)? | ~ N(x%,,1/a) 
在 多 元 情况 下 ，x e R!, RNA 
log f(x) = log fl») = F(x = 49) "ACE = xo) + 
其 中 A 是 二 阶 导数 的 (Hessian) 和 矩阵 : 
A =- VV logf(x) exes 
于 是 ， 拉 普 拉 斯 近似 为 
f(x) = 人 yap [ 一 F(x —x0)' A(x — Xo) | ~ Nu(x,,A') 
在 讨论 了 如 何 近似 之 后 ， 现 在 可 以 使 用 它 计 算 后 验 密度 。wymp 是 p(w |r, X) 的 众 数 ， 
取 作 均值 ， 而 协 方差 矩阵 由 负 的 对 数 似 然 的 二 阶 导数 矩阵 的 逆 给 出 : 
Sy =- VV log p(w|r,X) = So + Dy(l — y')x'(x')" 
于 是 ， 我 们 在 这 个 高 斯 函数 上 积分 ， 以 估计 类 概率 
P(C |x) =y = [sigmoid(w"x) q(w) dw 


其 中 g(w) ~N (Warps Sy) 。 另 一 个 难题 是 我 们 不 能 解析 地 求解 带 sigmoid 的 高 斯 卷 积 的 积 
分 。 概 率 单位 函数 ( probit function) 与 sigmoid 函数 具有 相同 的 S 形 ， 如 果 我 们 代 之 以 概率 单 
位 函数 ， 则 可 以 得 到 解析 解 (Bishop 2006 ) 。 


14.4 高 斯 过 程 


假定 我 们 有 线性 模型 y = wz。 于 是 ， 对 于 每 个 mw， 我 们 有 一 条 直线 。 给 定 先 验 分 布 
p(w) ， 我 们 得 到 一 个 直线 分 布 ， 或 更 具体 地 说 ， 对 于 任意 的 w， 当 w 是 从 p(w) 中 抽样 时 ， 
我 们 得 到 在 x 处 计算 的 y 值 ( 记 作 y(x |w) ) 的 分 布 ， 而 这 就 是 我 们 谈 及 高 斯 过 程 所 要 说 的 。 
我 们 知道 ， 如 果 p(w) 是 高 斯 的 ， 则 每 个 y 都 是 高 斯 的 线性 组 合 ， 并 且 也 是 高 斯 的 ; 特殊 地 ， 
我 们 对 入 个 输入 点 x'(t=1，…，N) 上 计算 的 y 值 的 联合 分 布 感 兴趣 (Mackay 1998) 。 

我 们 假定 有 0 均值 的 高 斯 先 验 

p(w) ~ N(0,a"T) 
给 定 N xd 的 数据 点 和 dx1 的 权重 向 量 ， 我 们 将 输出 y 写作 
y = Xw (14. 24) 
这 是 NN 元 高 斯 ， 满 足 
Ely] = XE[w] =0 (14. 25) 
1 
a 


Cov(y) = E[yy"] = XE[ww"]X" = —XX" = K 


其 中 是 格拉 姆 ( Gram) 矩阵 ， 其 元 素 是 
Ky = K(x xf) GO 


在 高 斯 过 程 的 文献 中 ， 这 称 作协 方差 函数 (covariance function)， 并 且 其 思想 与 核 函数 相 
同 : 如 果 我 们 使 用 基 函 数 p(x) 的 集合 ， 则 把 原 输 入 的 点 积 通过 核 
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K- DDH) 


推广 为 基 函 数 的 点 积 。 
实际 的 观测 输出 r 由 加 上 噪声 的 直线 r=y + 给 出 ,其 中 ~NW(0, B'), HFA N 
个 数据 点 ， 我 们 将 它 记 作 
r~ Nv(0,C,) ,其 中 C=B"'I+K (14. 26) 
为 了 做 出 预测 ， 我 们 将 新 数据 看 作 第 N+ 1 个 数据 点 对 (x',，r") ， 并 使 用 所 有 N +1 个 数 
据点 表示 联合 分 布 。 我 们 有 


ry ~ Nn(0,Cnn) (14. 27) 
其 中 
C, k 
Cw = | | 
k" c 


Hp kÆ K(x’, x')(t=1, =, NEN x1 维 向量 , 而 c=K(x', x') +B '. FE, 为 了 做 
出 预测 ， 我 们 计算 plr |x’, X, r), CRY, WE 
E(r'|«'] = k'C;'r 
Var(r’ |x’) = c —k'C;'k 
14-6 给 出 了 一 个 例子 ， 其 中 使 用 了 线性 、 二 次 和 高 斯 核 。 前 两 个 定义 为 它们 对 应 的 
基 函 数 的 点 积 ; 高 斯 核 直接 定义 为 
Kix 2) = exp [ - 1E] 














K 14-6 具有 一 个 标准 差 误 差 条 线 的 高 斯 过 程 回 归 : a) 线性 核 , b) 二 次 核 ，ec) 具有 展 宽 
s =0.5 的 高 斯 核 


均值 是 点 估计 (如 果 我 们 不 在 整个 分 布 上 积分 的 话 ) ， 也 可 以 写成 核 效 果 的 加 权 和 
E[r |x] = DakK(x',x’) (14. 28) 
其 中 , a 是 CNr 的 第 上 个 分 量 。 我 们 还 可 以 将 它 表 示 成 训练 数据 点 输出 的 加 权 和 ， 其 中 权 
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重 由 如 下 核 函 数 给 出 
E[r'|x’'] = rw (14. 29) 


Hp, w SE RCS 的 第 i 个 分 量 。 

注意 ， 我 们 也 可 以 计算 一 个 点 上 的 预测 方差 ， 以 了 解 其 中 的 不 确定 性 ， 并 且 这 依赖 于 影 
响 其 预测 的 实例 。 在 高 斯 核 的 情况 下 ， 只 有 局 部 区 域内 的 那些 实例 是 有 影响 的 ， 并 且 附 近 数 
据点 很 少 的 地 方 的 预测 方差 高 (参见 图 14-7) 。 

正如 我 们 在 第 13 章 介绍 核 机 器 时 讨论 的 ， 还 可 以 根据 应 用 定义 和 使 用 核 函数 。 直 接 使 
用 核 函 数 而 不 必 计 算 或 存储 基 函 数 提供 了 很 大 的 灵活 性 。 通 常 ， 给 定 训 练 集 ， 我 们 先 计 算 参 
数 (例如 ， 使 用 式 (14. 12) ) ， 然 后 使 用 参数 用 式 (14. 13 ) 做 预测 ， 而 不 再 需要 训练 集 。 这 是 
有 意义 的 ， 因 为 参数 的 维度 通常 为 0(d) ， 一 般 比 训练 集 的 规模 N 小 得 多 。 

然而 ， 当 我 们 使 用 基 函 数 时 ， 显 式 计 算 参 数 可 能 不 再 如 此 ， 因 为 基 范 数 的 维度 可 能 很 高 ， 
甚至 无 限 。 在 这 种 情况 下 ， 正 如 我 们 这 里 所 做 的 那样 ， 使 用 核 函 数 考 虑 训练 实例 的 影响 ， 用 对 
偶 表 示 可 能 更 经 济 。 这 种 思想 也 用 于 非 参 数 光 滑 (参见 第 8 章 ) 和 核 机 器 (参见 第 13 章 ) 。 

这 里 要 求 C\ 是 可 逆 的 ， 因 而 是 正定 的 。 为 此 , K 应 当 是 半 正 定 的 ， 使 得 将 B87 二 0 加 到 
对 角 线 上 之 后 我 们 得 到 正定 性 。 我 们 还 看 到 ， 最 昂贵 的 操作 是 计算 N xN RR, 幸运 的 
是 ， 它 只 需要 (在 训练 时 ) 计算 和 存储 一 次 。 然 而 ， 对 于 很 大 的 Y， 可 能 还 是 需要 近似 计算 。 

当 我 们 使 用 它 对 两 类 问题 分 类 时 ， 输 出 要 经 过 S 形 函 数 过 滤 ， 即 y =sigmoid(w'x), IFA y 
的 分 布 不 再 是 高 斯 的 。 求 导 类 似 ， 不 同 之 处 也 是 条 件 概 率 p(rw ,, li, X, ORIN, IF 
且 需 要 近似 计算 ， 例 如 ， 使 用 拉 普 拉 斯 近似 (Bishop 2006; Rasmussen 和 Williams 2006) 。 














-1 -0.5 0 0.5 1 
图 14-7 (E s? =0.5 和 不 同 数量 的 训练 数据 的 高 斯 核 的 高 斯 过 程 回 归 。 我 们 看 到 ， 在 数据 
不 多 的 地 方 预测 的 方差 较 大 


14.5 注释 

随 着 计算 能 力 的 提高 ， 允 许 我 们 从 后 验 概率 抽样 或 近似 它 ， 贝 叶 斯 方法 近来 日 趋 流行 。 
真相 有 多 种 表现 形式 。 许 多 情况 都 偏爱 简洁 性 ， 如 贝 叶 斯 方法 、 正 则 化 、 最 小 描述 长 度 和 光 
滑 。 这 是 统计 推断 的 核心 思想 ， 因 此 也 是 机 器 学 习 的 核心 思想 。 

另 一 方面 ， 先 验 的 主观 性 也 是 令 人 不 安 的 ， 并 且 也 是 反对 贝 叶 斯 方法 的 理由 ; 例如 ， 
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Gelman 2008 。 平 坦 的 先 验 有 何 用 ， 如 果 我 们 有 一 个 尖峰 的 先 验 ， 为 何 还 要 收集 数据 ? SE 
先 验 是 真实 的 还 是 仅仅 为 了 方便 ? 

正如 支持 向 量 机 ， 在 高 斯 过 程 中 也 同样 如 此 : 存在 许多 方法 ， 借 助 它们 ， 我 们 可 以 将 新 
核 构造 成 其 他 核 的 函数 ( 例如， 加 权 和 ) ， 并 且 这 些 权重 或 核 参数 (例如 ， 展 宽 ) 可 以 被 2 型 
最 大 化 似 然 过 程 (type 2 maximum likelihood procedure) 优化 ， 之 所 以 称 为 2 型 最 大 化 似 然 过 程 
是 因为 我 们 现在 不 是 优化 参数 (上 面 的 “或 迪 ) ， 而 是 优化 第 二 层 的 超 参数 (Bishop 2006 , 
Rasmussen 和 Williams 2006 ) 。 


14.6 习题 


pé 


. 对 于 图 14-3 的 情况 ， 观 察 后 验 如 何 随 W、c 和 o 变化 。 
2. 设 x 表 示 从 nt 个 随机 样本 中 接收 的 垃圾 邮件 数 。 假 定 垃 圾 邮件 所 占 的 比例 g 的 先 验 是 
[0，1] 中 的 均匀 分 布 。 找 出 p(g 1x) 的 后 验 分 布 。 

3. WE, RE pl) ~N (m, co) ARE n RKR, 使 得 我 们 可 以 使 用 中 心 极限 定理 ， 
并 用 高 斯 近似 二 元 分 布 。 推 导 p(g |x)。 

. 在 使 用 最 大 似 然 估 计时 ，Var(~) 是 什么 ? 将 它 与 式 (14. 17) 比较。 

. 在 图 14-6 中 ， 当 改变 时 拟 合 如 何 变化 ? 

. 提出 一 种 过 滤 算 法 ， 以 选择 高 斯 过 程 训 练 集 的 子 集 。 

. 在 主动 学 习 (active learning) 中 ， 学 习 程 序 在 学 习 期 间 能 够 逐一 产生 *x， 并 请 求 监督 者 提供 
对 应 的 > 值 ， 而 不 是 被 动 地 接受 一 个 给 定 的 训练 集 。 如 何 用 高 斯 过 程 实现 主 动 学 习 ? ( 提 
示 : 何 处 具有 最 大 的 不 确定 性 ?) 

8. 假定 我 们 有 来 自 两 种 不 同 表 示 的 输入 。 在 这 种 情况 下 ， 如 何 使 用 本 章 讨论 的 方法 ? 
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隐 马 尔 可 夫 模 型 





我 们 放松 样本 实例 相互 独立 的 假设 ， 并 引入 马尔 可 夫 模 型 ， 将 输入 序列 建 模 为 由 一 个 参数 
化 随机 过 程 所 产生 的 序列 。 我 们 讨论 如 何 完 成 这 一 建 模 以 及 从 样本 序列 学 习 模 型 参数 的 算法 。 


15. 1 引言 


迄今 为 止 ， 我 们 一 直 假 设 样本 中 的 实例 是 独立 同 分 布 的 。 这 样 做 的 好 处 是 样本 的 似 然 可 
简化 为 各 个 实例 的 似 然 之 积 。 然 而 ， 这 一 假设 在 相继 实例 相互 依赖 的 应 用 中 并 不 成 立 。 例 
如 ， 在 一 个 单词 中 相继 的 字母 是 相互 依赖 的 ; 在 英文 中 ,“h” 非 常 可 能 跟随 在 “t” 而 非 “x" 之 
后 。 这 类 存在 观测 序列 (例如 ， 单 词 中 的 字母 ，DNA 序列 中 的 基 对 ) 的 过 程 并 不 能 用 简单 的 
概率 分 布 进行 建 模 。 一 个 类 似 的 例子 是 语言 识别 ， 其 中 语音 片段 由 称 为 音素 的 语音 基 元 组 
成 ; 只 有 某 些 音素 序列 是 合法 的 ， 即 该 语言 的 单词 。 在 更 高 的 层次 上 ， 以 某 种 序列 书写 或 读 
出 单词 ， 形 成 由 该 语言 的 语法 和 语义 规则 定义 的 语句 。 

一 个 序列 可 用 一 个 参数 化 的 随机 过 程 (parametric random process ) 来 刻画 。 本 章 ， 我 们 讨 
论 如 何 完成 这 种 建 模 以 及 如 何 从 样本 序列 的 训练 集中 学 习 模 型 的 参数 。 


15.2 离散 马尔 可 夫 过 程 


考虑 一 个 系统 ， 其 在 任意 时 刻 处 于 N 个 离散 状态 中 的 一 个 : 5S, ，5,，…，Sw。 在 时 刻 1 
的 状态 记 作 q, t=1, 2, 0o PUAN, q, =S; 表示 在 时 刻 t 系统 处 于 状态 So RERNA E 
刻 " 好像 这 应 该 是 一 个 时 间 序 列 ， 但 是 这 种 方法 对 任意 序列 ， 无 论 是 时 间 、 空 间 、DNA 串 上 
位 置 等 ， 都 是 有 效 的 。 
系统 在 有 规律 的 、 间 隔 的 离散 时 刻 ， 根 据 以 前 的 状态 值 ， 以 给 定 的 概率 转移 到 一 个 
状态 : 
Plgin = S; | 9， = Siqa = Skt) 
对 于 一 阶 马 尔 可 夫 模 型 (Markov model) 的 特例 ， 系 统 在 时 刻 : +1 的 状态 仅仅 依赖 于 在 时 
刻 i 的 状态 ， 而 与 之 前 的 状态 无 关 : 
P(g = S, | 9， = Siqa = Sm) = P(g = S; | 9， = S;) (15.1) 
这 相当 于 说 ， 给 定 当前 的 状态 ， 未 来 的 系统 状态 独立 于 过 去 的 状态 。 这 恰 是 谚语 “今天 
是 你 余生 的 第 一 天 ”的 数学 表达 版 本 。 
我 们 进一步 简化 模型 ， 假 定 转移 概率 (transition probability ) 是 独立 于 时 间 的 : 
a, = P(g, = S lq, = 5) (15.2) 
满足 


a, >0#H Ya, =1 (15.3) 


jal 
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因此 ， 从 状态 5; 到 状态 S 的 状态 转移 总 是 具有 相同 的 概率 ， 无 论 这 个 转移 在 观测 序列 
中 的 何 时 或 何 地 发 生 。A =[aj] 是 一 个 NxW 的 矩阵 ， 其 每 行 之 和 均 为 1 。 

这 可 看 作 是 一 个 随机 自动 机 (stochastic automation) ( 见 图 15-1 ) 。 从 每 个 状态 5S,， 系 统 以 
概率 a, 转 移 到 状态 $ ， 并 且 这 一 概率 在 任何 时 刻 上 均 相 同 。 唯 一 的 特例 是 第 一 个 状态 。 我 们 
sary ay bet (initial ol 表示 序列 的 第 一 个 状态 是 5, 的 概率 : 

aw, = P(q, = S) (15.4) 


(15.5) 





图 1S-1 RA = “MRASH Sn oT BOE ABEL A LA SEB] or, 是 系统 
始 于 状态 5; 的 概率 ，ajy 是 系统 从 状态 S 转移 到 状态 S 的 概率 


=[Tij 是 一 个 具有 N 个 元 素 的 向 量 ， 元 素 和 为 1。 

在 一 个 可 观测 马尔 可 夫 模 型 (observable Markov model ) 中， 状态 是 可 观测 的 。 在 任意 时 
刻 :， 我 们 知道 g,， 并 且 随 着 系统 从 一 个 状态 转移 到 男 一 个 状态 ,我 们 得 到 一 个 观测 序列 ， 
即 为 状态 序列 。 该 过 程 的 输出 是 一 个 状态 集 ， 在 每 个 时 间 点 上 每 个 状态 对 应 一 个 物理 可 观测 
事件 。 

我 们 有 一 个 观测 序列 0， 它 是 状态 序列 O =Q = 19,9q…97} ， 其 概率 为 

P(O = @|A,TI) = P(g) TT PCa. |Get) = WEG, a, sey (15.6) 

m ERRED q HER, a, JE gs 到 qs 的 概率 ， 以 此 类 推 。 我 们 将 这 些 概率 相 乘 ， 
得 到 产生 整个 序列 的 概率 。 

我 们 现在 看 一 个 具体 例子 ( Rabiner 和 Juang 1986): 假定 我 们 有 N 个 容器 ， 每 个 容器 中 
仅 有 一 种 颜色 的 球 。 例 如 ， 有 一 个 装 红 色 球 的 容器 ， 一 个 装 蓝 色 球 的 容器 …… 。 某 人 一 个 接 

一 个 地 从 各 个 容器 中 取 球 ， 并 将 它们 的 颜色 展示 给 我 们 。 以 g, 表示 在 时 刻 上 所 取 球 的 颜色 。 
我 们 假定 有 三 个 状态 : 


并 有 初始 概率 : 
Il = [0.5,0.2,0.3]" 
aj 是 从 容器 i 中 取 一 个 颜色 i 的 球 之 后 ， 从 容器 /中 取 ( 一 个 颜色 j 的 ) 球 的 概率 。 例 如 ， 
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转移 矩阵 为 : 
0.4 0.3 0.3 
a-fo? 0.6 n2! 
0.1 0.1 0.8 
给 定 工 和 A， 很 容易 产生 kK 个 长 度 为 7 的 随机 序列 。 我 们 来 看 如 何 计算 一 个 序列 的 概 
率 : 假定 前 四 个 球 是 " 红 ， 红 ， 绿 ， 绿 "” 。 这 对 应 观测 序列 0 = | 5, ，S, ，53，5;| 。 其 概率 为 
P(O|A,I) = P(S,) + P(S,1S,) + PCS, 15,) + PCS; | 53) 
= Tı * Gy, * Gig ”033 Us.) 
= 0.5 x0.4 x0.3 x0.8 = 0.048 
现在 ， 我 们 来 看 如 何 可 以 学 习 得 到 参数 工 和 人 A: 给 定 开 个 长 度 为 了 的 序列 ，9% 表示 序 
列 大 在 上 时 刻 的 状态 ， 初 始 概率 的 估计 是 以 5; 起 始 的 序列 个 数 除 以 序列 总 数 : 
_ #1 S, 开始 的 序列 | 之 1(4 = SD 
#| 序列 | K 
JO 1(b) A 1 WR b REW, APM 1b) 0, 
至 于 转移 概率 ， 对 a; 的 估计 为 从 5; 转移 到 S, 的 个 数 除 以 所 有 序列 中 从 S, 转移 的 总 数 : 





(15.8) 


ts Bs wee] È AT = Sand aus = 5) a 
<i # S. 的 转 ; = T=1 
MS, 的 转移 | SFe- 


k t=1 


6&1 是 一 个 蓝 色 球 跟 在 一 个 红色 球 之 后 的 次 数 除 以 所 有 序列 中 红色 球 的 总 数 。 
15.3 隐 马 尔 可 夫 模 型 


在 隐 马 尔 可 去 模型 (Hidden Markov Model, HMM) 中， 系统 状态 是 不 可 观测 的 ,但 是 到 
达 一 个 状态 时 ， 可 以 记录 一 个 观测 ， 这 个 观测 是 该 状态 的 一 个 概率 函数 。 我 们 假定 每 个 状态 
的 一 个 离散 观测 取 自 集合 |w n, 0, vyl: 

blm) = P(O, = 0,19, = 5,) (15. 10) 

b(m) 是 系统 处 于 状态 S 时 ,我 们 观测 到 v(m = 1, =, M) 的 观测 概率 ( observation 
probability ) 或 发 射 概率 (emission probability ) 。 我 们 再 次 假定 齐 次 模型 ， 其 中 发 射 概率 不 依赖 
于 时 间 ti。 观测 到 的 一 系列 vn 便 形成 了 观测 序列 0。 状 态 序列 Q 是 不 可 观测 的 ， 这 正 是 称 之 
为 “ 隐 ” 模 型 的 缘由 ， 但 是 状态 序列 可 以 通过 观测 序列 推 新 。 注 意 ， 通 常 许 多 不 同 的 状态 序 
列 O 可 以 产生 相同 的 观测 序列 O， 但 是 以 不 同 的 概率 产生 ; 正如 给 定 服从 正 态 分 布 的 一 个 独 
立 同 分 布 (iid) 的 样本 ， 有 无 限 多 对 可 能 的 (ww，o ) 值 ,我们 感 兴趣 的 是 能 以 最 大 似 然 产生 这 
个 样本 的 那 对 (jw，o)。 

还 需要 注意 的 是 ， 在 隐 马 尔 可 夫 模型 中 ， 随 机 性 源 自 两 个 方面 : 除了 从 一 个 状态 转移 到 
另 一 状态 是 随机 的 之 外 ， 系 统 在 一 个 状态 中 产生 的 观测 也 是 随机 的 。 

再 次 回 到 我 们 的 例子 : 隐 马 尔 可 夫 模 型 对 应 的 容器 - 球 实例 中 ， 每 个 容器 包含 不 同 颜色 
WER, VA b,(m) 表 示 从 容器 j 取 出 一 个 m 颜色 球 的 概率 。 我 们 再 次 得 到 一 个 球 颜 色 的 观测 序 
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列 ， 但 并 不 知道 抽取 球 的 容器 序列 。 因 此 好 像 容 器 置 于 一 个 布 帘 之 后 ， 一 个 人 随机 地 从 一 个 

容器 中 取 一 个 球 ， 而 展示 给 我 们 的 仅仅 是 球 而 不 展示 抽取 球 的 容器 。 球 展示 后 被 放 回 容器 以 

保持 发 射 概率 不 变 。 球 的 颜色 数 可 能 不 同 于 容器 数 。 例 如 ， 我 们 假定 有 三 个 容器 ， 而 观测 序 
列 为 : 

0 = (| 红 , 红 , 绿 , 蓝 , 黄 | 

在 前 面 的 情况 下 ， 知 道观 测 ( 球 的 颜色 ) ， 我 们 可 以 确切 知道 系统 状态 (容器 ) ， 因 为 对 

不 同 的 颜色 的 球 有 不 同 的 容器 ， 而 且 每 个 容器 只 含有 一 种 颜色 的 球 。 可 观测 马尔 可 夫 模 型 是 

367, ” 隐 马 尔 可 夫 模 型 的 一 个 特例 ， 其 中 MM=N， 并且 如 果 j=m，bj(m) 为 1， 否则 6,(m) 为 0。 但 

是 在 隐 马 尔 可 夫 模 型 中 ， 一 个 球 可 能 取 自 任意 容器 。 在 这 种 情况 下 ， 对 于 相同 的 观测 序列 

0， 可 能 存在 多 个 可 能 的 状态 序列 @ 产生 0( 见 图 15-2)。 























15-2 一 个 HMM 按时 间 展 开 为 格 ， 展示 了 所 有 可 能 的 轨道 。 以 粗 线 
所 示 的 一 条 路 径 是 产生 观测 序列 的 真正 ( 未知) 状态 轨迹 


对 上 述 进行 总 结 和 形式 化 ， 一 个 HMM 具有 以 下 元 素 : 
1)N: 模型 状态 个 数 

S = 1S, Sy 477+, Sy] 
2)M: 以 字母 序 排列 的 不 同 观测 符号 的 个 数 


V = |v 0, , Vy} 
3) 状态 转移 概率 : 
Aste], #4, * Play = 8 lq = 5) 
4) 观 测 概率 : 
368 B = [6b(m)], 其 中 4b(m) = PCO, = wv, |g, = 5,) 
5) 初 始 状态 概率 ; 


H=[nm]， #4 a, =P = S) 
N AM Beda LE FWS ROH, Alt A= (A, B, TL) 被 取 作 一 个 HMM 的 参数 集 。 


给 定 A， 模 型 可 用 于 产生 任意 长 度 的 任意 个 数 观测 序列 ， 但 是 我 们 通常 感 兴趣 的 是 另 一 方 
向 ， 即 通过 一 个 由 若干 观测 序列 组 成 的 训练 集 来 估计 模型 的 参数 。 
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15.4 HMM 的 三 个 基本 问题 


给 定 一 定数 量 的 观测 序列 ， 我 们 对 下 面 三 个 问题 感 兴趣 : 

1) 给 定 一 个 模型 A， 我 们 希望 估计 任意 给 定 观 测序 列 0 = | O,0,---0,| 的 概率 ， 即 P(O |A)。 

2) 给 定 一 个 模型 A 及 一 个 观测 序列 0， 我 们 希望 找 出 状态 序列 0 = 1g19,…gr} ， 其 具有 
产生 0 的 最 大 概率 ， 即 我 们 要 找到 最 大 化 P(Q10, A) 的 0 。 

3) 给 定 观测 序列 组 成 的 训练 集 X = | 0"|;， 我 们 希望 学 习 得 到 产生 X 的 概率 最 大 化 的 模 
型 ， 即 我 们 要 找到 最 大 化 P A) EA’ 。 

让 我 们 逐一 来 看 这 些 问 题 的 解决 办 法 ， 每 个 办 法 又 用 于 解决 下 一 个 问题 ， 直 到 我 们 得 以 
计算 出 A, 或 者 是 从 数据 中 学 到 一 个 模型 。 


15.5 估 值 问题 


给 定 观测 序列 O = | 0,0;…Or| 和 状态 序列 Q = |g19,…qz| ， 给 定 状态 序列 Q 观测 到 0 
的 概率 为 
P(O1Q,A) = T] PCO, 14.4) =b, (Qi) + By, (Q2)--*b,,(Qr) (15.11) 
我 们 无 法 直接 计算 上 式 ， 因 为 状态 序列 (的 值 ) 是 未 知 的 。 状 态 序列 0 的 概率 是 


P(Q|à) = Piq) TEPC, dea) = Wy, as, Fy, see (15. 12) 
因而 联合 概率 为 k 
P(0,Q |à) = Pa) TL PCa la) T]PCO, lq.) 
=m, b, (0, Ja, ,0 (Or PET Or) (15. 13) 


我 们 可 以 通过 边缘 化 这 一 联合 概率 ， 即 通过 在 所 有 可 能 的 Q LOR AI, 来 计算 PCO | 入 ) : 
P(O|A) = P(0,Q |à) 
所 有 可 能 的 Q 


但 是 ， 该 方法 是 不 现实 的 ， 因 为 如 果 假 定 所 有 的 概率 都 是 非 零 的 ， 则 有 N 个 可 能 的 0。 
幸运 的 是 ， 存 在 计算 P(O | 入 ) 的 有 效 方法 ， 称 之 为 正 反 向 过 程 (forward-backward procedure) , 
见 图 15-3。 其 基于 的 思想 是 将 观测 序列 分 为 两 个 部 分 : 第 一 部 分 始 于 时 刻 1 到 时 刻 上， 第 二 
部 分 始 于 时 刻 t++1 直到 7。 

给 定 模 型 入， 我 们 定义 正 向 变量 (forward variable)a,(i) 为 到 时 刻 i 观 测 到 部 分 序列 | 0,… 
0,| 并 且 在 时 刻 上 的 状态 为 5; 时 的 概率 : 

a,(i) = P(O,---0,,¢, = S; |A) (15. 14) 

这 种 方法 的 优点 在 于 可 通过 结果 累积 而 递归 地 计算 上 式 : 

a 初始 化 : 

a(i) = P(O,,q, = 5;|A) 
= P(0, lq, = S;,,A)P(q, =S; la) 
= mb; (0) (15.15) 


ww ai bobt.com DOOO000 


3 


70 
2 


230 第 15 章 





a 递归 ( 见 图 15-3(a) ) : 





a) 正 向 b) 反 向 
Æ 15-3 正 反 向 过 程 a)a,()) 的 计算 ; b)B,(i) 的 计算 
(J) = P(O Osga = SIA) 
= P(O…0 19q = SA)P = S 1A) 
= P(0…0,19 = S APO. 1q =S,A)P( = S lA) 
= P(O…0,q = ;|A)P(O,n 9q = SA) 
= P(O |g = S;,A) 之 PC0…0.9， = Si,q = SÀ) 


P(O,,; l diet = S;,A) DY P(O+-0, ,gn = S; lq, = S;,A)P(q, = S; | A) 


ll 


P(O,,, | gq, = S;,A) > P(0,---0, lq, = S;,A)P(gqg,, = S, | 9， = S,,A)P(q, = S; |à) 


POCO | es = S;,A) $ P(O01%0,,g, = S; IA) PC dis: = S; |q, = S;,A) 


= [ Dalia, ]b(0,.1) (15. 16) 
a, (让 表示 了 产生 前 ;个 观测 并 且 止 于 状态 5; 的 概率 。 通 过 将 其 乘 以 概率 ou 得 到 转移 到 
RES 的 概率 ， 但 是 因为 有 N 个 可 能 的 前 驱 状 态 ， 我 们 需要 对 所 有 可 能 的 前 驱 状 态 SR 
和 。b,( 0,,4) 则 是 产生 第 (1+1) 个 观测 且 在 第 1+1 时 刻 处 于 状态 5 的 概率 。 
当 我 们 计算 正 向 变量 时 ， 容 易 计算 观测 序列 的 概率 : 


P(O|.A) = 2 P(0.9r = 8, | 和 A) 


p> a (i) 
ar( 刘 是 产生 整个 观测 序列 并 终止 于 状态 S 的 概率 。 我 们 需要 对 所 有 可 能 的 终止 状态 进行 求 和 。 
计算 a,(i) 的 复杂 度 为 0(VT) ， 并 且 这 在 合理 的 时 间 内 解决 我 们 第 一 个 估 值 问题 。 虽 然 
现在 我 们 并 不 需要 ， 但 是 我 们 类 似 地 定义 反 向 变量 (backward variable )B,(i) ， 作 为 在 时 刻 t 
处 于 状态 5; 并 且 观 测 到 部 分 序列 0,,,…07 的 概率 : 


(15.17) 
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BC = PO Del = SA) (15. 18) 
同样 可 以 按 如 下 进行 递归 计算 ,不 同 的 是 这 次 是 逆序 进行 : 
m 初始 化 (任意 地 设 为 1): 
Br(i) =1 
”递归 计算 ( 见 图 15-3(b)): 
B.(i) = P(0,,,°°07 |g, = SA) 


= SO nia = S eS SA 
= = Be PCO. Or | des = Sq, = $i,A)P(gin = S lg = SA) 
= È PCO. 19 = Saq: = Si, À) 

P(O, Op | der = Sd = 5,4) PCG = S 19, = SrA) 
= SPO laa = Sj,A) 

Pa 2° Onl gan = SA)P(q = S lq = SA) 


= Pablo0. DB iY) (15. 19) 


当 处 于 状态 S; 时 ， 有 ON 种 可 能 的 下 一 状态 $ ， 每 个 的 概率 为 a;。 在 该 状态 上 ， 我 们 产 
生 第 (t+1) 个 观测 ， 而 B,,1()) 表 示 了 时 刻 1+1 之 后 的 所 有 观测 的 概率 ， 以 此 类 推 。 
对 于 实现 ， 需 要 引起 注意 的 是 : a, MB, 都 是 通过 多 个 小 概率 相 乘 计算 的 ， 而 当 序列 很 
长 时 有 下 洲 的 危险 。 为 了 避免 下 洲 ， 我 们 在 每 一 步 通 过 将 a CRA 
= 1 
Sa0) 
对 其 进行 规范 化 。 同 样 也 将 B, C) RHR c,， 以 对 其 进行 规范 化 (B,(i) 之 和 不 为 1)。 规 
范 化 之 后 不 能 使 用 式 (15. 17); 替代 地 ， 我们 有 (Rabiner 1989) 


P(OLA) = log P(O1 A) =- 5 loge, (15. 20) 


t 





t 


15.6 寻找 状态 序列 


我 们 现在 考虑 第 二 个 问题 ， 即 给 定 模 型 入， 寻找 以 最 高 的 概率 产生 观测 序列 0 = 10， 
0,°+-O;| 的 状态 序列 Q= 14192°°'4rt o 
定义 y, (i) HAE OMA, ERZA t 处 于 状态 5; 的 概率 ， 它 可 以 计算 如 下 : 


y(i) = P(q, = S;|0,A) (15.21) 
-POTA 








= PCO"; |q, = = Si À) P(O, 0r | 4, = S;,A)P(q, = S; |A) 
a N 


> P(0,¢, = S lA) 
j=l 
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= P(LO…O,，,9， = S; |A)P(O,,,°*:O7 | qd = S;,A) 
LPO |q, = S,A)P(q = S, |à) 
_ a (Bi) 
373 È a (B,C) 
” ”这 里 我 们 看 到 a (i) M B, (i) EREHE ENARE: 正 向 变量 a, (i) RET 
到 时 刻 1 为止 的 序列 的 前 一 部 分 并 终止 于 状态 5;， 而 反 向 变量 B,(i) 从 那里 开始 并 解释 了 直 
到 时 刻 了 的 后 一 部 分 。 
分 子 a,(i)B,( 记 表示 了 在 时 刻 t+、 系统 处 于 状态 S: 的 整个 序列 的 概率 。 我 们 需要 将 其 除 
以 所 有 在 时 刻 t 可 能 转移 到 的 中 间 状 态 对 其 进行 正规 化 ， 并 保证 2 y,(i) = 1。 
为 找到 ( 目标 ) 状态 序列 ， 可 以 在 每 一 步 上 选择 具有 最 高 概率 的 状态 : 
q = arg maxy,(i) (15. 23) 
但 是 这 有 可 能 在 时 刻 上 AYA t +1 选择 5S; AS, 作为 最 合适 的 状态 ， 即 使 这 时 有 ay =0。 为 了 


找到 单个 最 好 的 状态 序列 (路 径 ) ， 我 们 使 用 基于 动态 规划 的 Viterbi 算法 (Viterbi algorithm) , 
将 这 样 的 转移 概率 考虑 在 内 。 


给 定 状态 序列 Q =q ar 和 观测 序列 0 = 0O,…Or， 定 义 85.(i) 为 在 时 刻 上 代表 前 上 个 观 
测 并 止 于 状态 5; 具有 最 高 概率 路 径 的 概率 : 
ô, (i) = aay P9192" 4: = S; 010, là) (15. 24) 


从 而 我 们 可 以 递归 地 计算 5,,1(i) ， 而 最 优 路 径 可 以 从 时 刻 7 开始 ， 在 每 个 时 刻 选择 最 
合适 的 状态 来 反 向 读 取 。 算 法 如 下 : 





(15. 22) 


1) 初 始 化 : 
5,(i) = 7,b,(0,) 
y(i) =0 
2) 递 归 : 
50) = maxô,ı (i)a; + b;(0,) 
Y.Q) = arg max6,_, (i) a, 
3) 终 止 : 
p’ = maxpr(i) 
os qr = arg maxd,(i) 
4) 路 径 ( 状 态 序列 ) 回溯 : 


gr = Wi (Ger) yf = T= tT 一 25-0751 
使 用 图 15-2 的 网 格 结构 ，y,()) 跟 踪 了 在 时 刻 1 - 1 最 大 化 5,()) 的 状态 ， 即 最 佳 的 前 驱 
状态 。Viterbi 算法 与 正 向 阶段 具有 相同 的 复杂 度 ， 其 中 我 们 在 每 一 步 用 取 最 大 值 替代 求 和 。 
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15.7 学 习 模 型 参数 


我 们 现在 继续 第 三 个 问题 ， 从 数据 中 学 习 HMM。 使 用 最 大 似 然 方法 ， 我 们 要 计算 最 大 
化 训练 序列 样本 X = 10}#-1 的 似 然 的 和 A ， 即 计 
算 最 大 化 P(X 1 和 A) 的 和 A"。 我们 从 定义 便于 稍 后 
讨论 的 新 变量 开始 。 

UME, 门 为 给 定 全 部 观测 O0 和 入 ， 在 时 
刻 上 处 于 状态 5; 和 在 时 刻 上 +1 处 于 状态 S 的 
概率 : 

é,(i,j) = Plg, = Si,qu = S; | 0,A) 

(15. 25) 
上 式 可 计算 为 (参见 图 15-4) : BF De ee 
E,(i,j) = P(g, = Si,g = S |0,A) 
_ PCO lg. = Si,qg = SA)P(g = Siten = S 1A) 








P(O|A) 
_ P(O|q, = S594 = SAP (qaa = S, |g, = S$,,A)P(g, = S; | A) 
P(O|A) 





1 — 
= 人 | 9， 一 S;,A)P(0,,, | deat ‘=~ S;,A) 


P(O, 0r | Quai = S;,A)a,;P(q, = S; | A) 


= (prag) POO. = SA)P(O | gm = SpA) 
P(O, 0 |g,, = 5;,A)a; 

a, (i) b( 01.1) Biss J) ay 
2, È PCa = Shq = S0 |A) 


_ _ a(i)a;b; (Ona Bis G) 
i D 2 a Ch) aubi( On Bros O) (15. 26) 


a,(i) 表 示 产 生前 i 个 观测 并 且 在 时 刻 ¢ 止 于 状态 5; 的 概率 。 以 概率 a; 转 移 到 态 5,， 产 
生 第 i +1 个 观测 ， 并 在 i+1 时 刻 从 S, 开始 继续 产生 其 余 的 观测 序列 。 我 们 通过 将 E, (7, 7) BR 
以 所 有 在 时 刻 上 和 时 刻 ++1 可 能 处 于 的 状态 对 其 进行 规范 化 。 

如 果 需 要 ， 我 们 可 以 通过 对 所 有 可 能 的 下 一 状态 ， 在 弧 概 率 上 边缘 化 来 计算 在 1 时 刻 系 
统 处 于 状态 5; 的 概率 : 








nO) = FEJ) (15.27) 

需要 注意 的 是 ， 如 果 马 尔 可 夫 模 型 不 是 隐 的 而 是 可 观测 的 ， 则 y,(i) 和 (i, ZA 

为 0/1。 而 当 模 型 是 隐 马 尔 可 夫 模 型 时 ， 我 们 通过 软 计数 (soft count ) 这 样 的 后 验 概 率 来 估计 
它们 。 正 如 监督 分 类 和 非 监督 聚 类 之 间 的 区 别 ， 其 中 类 标号 相应 的 为 已 知 和 未 知 。 在 使 用 
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EM 算法 的 非 监督 聚 类 中 (7.4 节 ) ， 类 标号 未 知 ， 我 们 首先 (在 E- 步 又 中 ) 估计 它们 ， 而 后 
(在 M- 步 又 中 ) 使 用 这 些 估 计 计 算 参 数 。 
类 似 地 ， 这 里 我 们 使 用 Baum- Welch 算法 (Baum- Welch algorithm) ， 它 是 一 种 EM 方法 。 
在 每 次 迭代 中 ， 首 先 在 E- 步 ， 我们 在 给 定 当 前 和 = (A, B, TL) OL FIR é (Ci, J) My, (i) 
的 值 ， 然 后 在 M- 步 ， 我 们 在 给 定 &(i, j) 和 (i 的 情况 下 再 计算 入 。 这 两 个 步 又 交替 进行 
直到 收敛 ， 这 是 因为 ，P(O |A) 的 值 在 这 个 过 程 中 不 会 减 小 。 
假设 指示 变量 z 为 : 
z = p TERSA (15. 28) 
0 Fi) 
并 且 
‘ea ( - 如果 dg = S; 并 且 g,,, = S; 
0 ”否则 
这 些 值 在 可 观测 马尔 可 夫 模 型 情况 下 为 0/1， 而 在 HMM 情况 下 为 隐 随 机 变量 。 在 后 一 
种 情况 下 ， 我 们 在 E- 步 对 其 进行 估计 : 
Elz] = y(i) 
Elz] = & Gj) (15. 30) 
在 M- 步 ,我 们 在 这 些 估计 值 上 计算 参数 。 从 5; BS 的 转移 的 期 望 数 为 > Ei, j), 


而 从 S: 转移 的 总 数 为 2 y,(i)。 这 两 个 数值 的 比值 给 出 了 任意 时 刻 从 状态 5; 转移 到 S, 
的 概率 : 


(15. 29) 





pedt (15.31) 


注意 除了 将 实际 的 计数 替换 为 估计 的 软 计数 外 ， 上 式 和 式 (15.9) 是 一 样 的 。 
在 状态 $ 观测 到 w 的 概率 为 系统 处 于 状态 S 时 观测 到 w 的 期 望 次 数 除 以 系统 处 于 状 
E S 的 总 数 : 


È yD1(0, = vn) 
b(m) = 全- 
2 y.) 
当 有 多 个 观测 序列 X= 10 时 ， 我 们 假定 它们 是 相互 独立 的 : 
P(X|A) = JJP la) 
参数 在 全 部 序列 的 所 有 观测 上 取 平 均 : 
k Tx-l 
Drean 


y K Tx-1 


2 22 





(15. 32) 
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人 (15. 33) 


15.8 连续 观测 
在 我 们 的 讨论 中 ， 我 们 假定 离散 的 观测 服从 多 项 分 布 : 


P(O,\q, = Sà) = To,Cm)”™ (15. 34) 
其 中 
= | MAO, = (15.35) 
0 ”否则 


如 果 输 入 是 连续 的 ， 一 个 方法 是 将 其 离散 化 ， 然 后 使 用 这 些 离散 值 作 为 观测 值 。 通 常 
使 用 向 量 量 化 (7.3 节 ) ， 目 的 在 于 将 连续 值 转 换 为 最 接近 的 参考 向 量 的 离散 值 。 例 如 ， 
在 语音 识别 中 ， 一 个 单词 发 音 被 分 割 为 小 的 语音 片段 ， 对 应 音节 或 部 分 音节 ;， 预 处 理 后 ， 
这 些 片 段 通过 向 量 量化 被 离散 化 ， 进 而 使 用 HMM 将 一 个 单词 发 音 建 模 为 一 个 离散 化 片段 
的 序列 。 

我 们 还 记得 用 于 向 量 量化 的 均值 是 高 斯 混合 模型 的 一 个 硬 版 本 : 


p(O,|q, = SA) = ÈZ P(Gi) PCO, la, = 5,,G1,A) (15. 36) 
其 中 
pCO, lq, = SGi, A) ~ N (m, X) (15. 37) 
并 且 观 测 保持 连续 性 。 在 这 种 高 斯 混合 情形 下 ， 可 为 分 量 参数 (以 合适 的 正则 化 来 保持 对 参 
数 个 数 进 行 检验 ) 和 混合 比例 推导 出 EM 方程 (Rabiner 1989) 。 
现在 我 们 看 一 下 观测 为 连续 标量 的 情形 ，0, e R。 最 简单 的 方法 是 假定 其 服从 正 态 
分 布 : 





p(0,|g, = SA) ~ N (m, ) (15.38) 
这 意味 在 状态 S, WWR ABA u, HEK oF 的 正 态 分 布 。 这 种 情形 下 ，M 步 的 公式 为 : 
¥ v.G) 0, 
fi; = FG) (15.39) 
; >.7.0) (0, 应) 
"O EvO 
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15.9 WARI HMM 


在 某 些 应 用 中 ， 除 了 观测 序列 0, 之 外 ， 我 们 还 有 一 个 输入 序列 x,。 我 们 可 以 将 处 于 状 
AS S 的 观测 O, 以 输入 x, 为 条 件 ， 并 记 作 P(0, | g,=5,;，x,)。 当 观测 为 连续 标量 的 情况 下 ， 
”我 们 将 式 (15. 38) 替换 为 一 个 广义 模型 

p(O, |9， = S,,%,,A) ~ N(g(x'|0,) ,0)) (15. 40) 
其 中 ， 比 如 假定 线性 模型 ， 我 们 有 
g(x | w, Wo) = wx + Wo (15.41) 

如 果 观 测 是 离散 的 并 服从 多 项 分 布 ， 则 我 们 得 到 一 个 将 x, 作为 输入 并 产生 M 选 1 输出 
的 分 类 器 ， 否 则 我 们 可 以 产生 后 验 类 概率 并 保持 观测 的 连续 性 。 

类 似 地 ， 状 态 转 移 概率 也 可 以 以 输入 为 条 件 ， 即 P(g,,, =5 1g,=5S;，x,)。 它 可 通过 
一 个 选择 将 1+1 时 刻 的 状态 作为 在 上 时 刻 的 状态 和 输入 的 函数 的 分 类 器 来 实现 。 这 就 是 马 
尔 可 夫 混 合 专 家 模型 (markov mixture of expert) ( Meila 和 Jordan 1996 ) ， 是 混合 专家 构架 的 
一 般 化 ( 见 12.8 节 ) ， 其 中 门 网 络 跟踪 其 在 前 一 时 步 所 作 的 决策 。 此 类 构架 也 称 为 输入 - 
输出 HMM( input-output HMM) ( Bengio 和 Frasconi 1996) 并 具有 模型 非 齐 次 的 优点 ; 在 
不 同 的 时 步 使 用 不 同 的 观测 和 转移 概率 。 在 每 一 个 状态 仍然 使 用 由 9, 参数 化 的 单一 模 
型 ， 但 是 根据 所 看 到 的 输入 产生 不 同 的 转移 或 观测 概率 。 有 可 能 输入 并 非 单 值 ， 而 是 
围绕 时 刻 i 的 一 个 窗口 ， 使 得 输入 为 一 个 向 量 ; 这 样 可 以 处 理 输入 和 观测 序列 具有 不 同 
长 度 的 应 用 。 

即使 没有 其 他 显 式 的 输入 序列 ， 带 输入 的 HMM 也 可 以 通过 关于 一 些 以 前 观测 的 预 设 函 
数 来 产生 一 个 “输入 ” 

x, = f(0,,,…,0,.1) 
从 而 提供 一 个 大 小 为 7 的 背景 输入 窗口 。 


15.10 HMM 中 的 模型 选择 


正如 任意 其 他 模型 一 样 ， 需 要 调整 HMM 的 复杂 度 ， 使 其 根据 面 对 的 数据 的 规模 和 性 质 
平衡 其 复杂 性 。 一 种 可 能 的 方法 是 调整 HMM 的 拓扑 。 在 完全 连接 (遍历 ) 的 HMM 中 ， 从 一 
个 状态 可 转移 到 任意 其 他 状态 ， 使 得 A 是 一 个 NxWN 的 全 和 矩阵。 在 一 些 应 用 中 ， 仅 有 某 些 转 
移 是 允许 的 ， 而 不 允许 的 转移 有 a; =0。 当 下 一 个 可 能 的 状态 较 少 ， 即 N'<N 时 ， 正 反 向 扫 
描 和 Viterbi 过 程 的 复杂 度 为 0( NN'T) ， 而 并 非 O( NV 7) 。 

例如 ， 在 语音 识别 中 使 用 自 左 向 右 HMM (left-to-right HMM) ， 其 中 系统 状态 按时 间 排 
序 ， 随 着 时 间 的 推进 ， 状 态 下 标 增加 或 保持 不 变 。 这 样 的 约束 可 用 来 对 像 语音 一 样 其 性 质 随 
时 间 变 化 的 序列 进行 建 模 ， 并 且 当 到 达 一 个 状态 的 时 候 ， 我 们 近似 地 知道 其 前 的 状态 。 有 一 
个 性 质 : 系统 绝 不 向 具有 更 小 下 标的 状态 转移 ， 即 对 于 ji 有 a; =0。 而 在 状态 下 标 上 跨度 
很 大 的 状态 转移 也 不 允许 ， 即 对 于 二 i+7r A aj=0, K 15-5 给 出 了 自 左 向 右 HMM 的 一 个 
例子 ， 其 中 r =2， 状 态 转 移 和 矩阵 如 下 : 
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图 15-5” 自 左 向 右 HMM 的 例子 

决定 HMM 复杂 度 的 另 一 因素 是 状态 的 个 数 N。 因 为 状态 是 隐藏 的 ， 因 此 其 个 数 未 知 并 
且 应 在 训练 前 选 定 。 这 需要 使 用 先 验 信息 对 其 进行 决定 并 通过 交叉 验证 ， 即 通过 检查 验证 序 
列 的 似 然 进行 微调 。 

当 用 于 分 类 时 ， 可 使 用 一 组 HMM ， 每 个 对 属于 一 类 的 序列 进行 建 模 。 例 如 ， 在 口语 单 
词 识别 中 ， 每 个 单词 的 样本 训练 一 个 不 同 的 模型 A;。 当 对 新 的 单词 发 音 0 进行 分 类 时 ， 所 
有 不 同 的 单词 模型 均 被 用 来 计算 PCO JA) 。 然 后 使 用 贝 叶 斯 规则 得 到 后 验 概率 
P(O|A,)P(A,) 

E PCO |A DPO) 


其 中 P(A;) 是 单词 i 的 先 验 概率 。 该 发 音 被 指派 到 具有 最 高 后 验 概 率 的 单词 。 这 是 基于 似 然 
的 方法 ， 也 是 直接 训练 有 判别 力 的 HMM， 以 便 最 大 化 后 验 概率 。 当 存在 同一 单词 的 多 个 发 
音 时 ， 它 们 在 该 单词 的 HMM 中 被 定义 为 并 行路 径 。 

在 像 语音 这 样 的 连续 输入 的 情况 下 ， 困 难 之 处 在 于 将 信号 分 割 为 较 小 的 离散 观测 。 通 常 
使 用 取 作 基 元 部 分 的 音素 (phone) ， 并 通过 对 其 组 合 形成 更 长 的 序列 (例如 单词 ) 。 每 个 音 
(通过 向 量 量 化 ) 被 并 行 地 识别 ， 然 后 用 HMM 将 它们 顺序 组 合 。 如 果 语 音 基 元 简单 ， 则 
HMM 会 比较 复杂 ， 反 之 亦 然 。 在 连续 语音 识别 中 ， 单 词 并 非 一 个 接 一 个 的 以 清晰 间隔 进行 
发 音 ， 这 时 可 以 采用 多 级 别 上 的 层次 AMM; 一 层 用 于 组 合 音素 以 识别 单词 ， 另 一 层 通 过 建 
立 语言 模型 对 单词 组 合 以 识别 语句 等 。 

近年 来 ， 神 经 网 络 /HMM 混合 模型 在 语音 识别 领域 比较 流行 ( Morgan 和 Bourlard 1995 ) 。 
在 这 样 的 模型 中 ， 一 个 多 层 感 知 器 (第 11 章 ) 用 于 捕捉 时 间 局 部 而 不 是 比较 复杂 和 非 线 性 的 
基 元 ， 如 音素 ， 而 HMM 用 于 学 习 时 间 结 构 。 神 经 网 络 作 为 预 处 理 器 并 将 时 间 窗 口中 的 原始 
观测 转换 成 比 向 量 量 化 的 输出 更 容易 建 模 的 形式 。 

正如 我 们 将 在 第 16 章 看 到 的 ，HMM 可 以 看 作 一 种 图 模型 ， 而 HMM 中 的 估计 可 以 看 作 
信念 传播 算法 的 一 个 特例 。 我 们 专门 写 这 一 章 是 因为 这 种 特定 模型 具有 广泛 和 成 功 的 应 用 ， 
特别 是 在 自动 语音 识别 领域 。 当 我 们 详细 讨论 图 模型 时 ， 将 会 看 到 如 何 扩 展 基本 HMM R 
构 ， 例 如 ， 通 过 有 多 个 序列 ， 或 通过 引入 可 以 简化 模型 的 隐藏 变量 来 扩展 基本 HMM 架构 。 


15. 11 注释 


P(A; |0) = 





(15. 42) 


HMM 是 一 项 成 熟 的 技术 ， 并 且 存 在 基于 HMM 的 商业 语音 识别 系统 在 实际 使 用 ( Rabiner 
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和 Juang 1993; Jelinek 1997) 。 在 11. 12 节 ， 我 们 讨论 了 如 何 训练 多 层 感知 器 用 于 序列 识别 。 
与 延迟 神经 网 络 相 比 ，HMM 的 优点 在 于 不 用 事先 定义 时 间 窗 口 ， 并 且 HMM 的 训练 效果 优 
于 递归 神经 网 络 。HMM 可 以 应 用 于 各 种 序列 识别 任务 。HMM 在 生物 信息 领域 的 应 用 在 
Baldi 和 Brunak 1998 中 有 所 介绍 ， 在 自然 语音 处 理 中 的 应 用 在 Manning 和 Schütz 1999 有 所 介 
绍 。HMM 也 用 于 在 线 手 写 符 号 识别 ， 它 与 光学 识别 的 不 同 之 处 在 于 书写 者 在 触觉 感知 的 书 
写 板 上 书写 ， 并 且 输 入 是 一 个 关于 笔尖 在 书写 板 上 移动 的 (x，y) 坐标 序列 ， 而 非 静 态 的 图 
片 。Bengio 等 (1995 ) 介绍 了 一 种 用 于 在 线 识 别 的 混合 系统 ， 其 中 MLP 识别 单个 字符 ， 而 
HMM 将 字符 组 合 起 来 识别 单词 。Bengio 1999 讨论 了 HMM 的 各 种 应 用 和 多 种 扩展 ， 例 如 有 
判别 力 的 HMM。 一 个 关于 HMM 可 以 做 什么 和 不 能 做 什么 的 综述 参见 Bilmes 2006, 

在 任意 此 类 识别 系统 中 ， 一 个 关键 点 在 于 决定 多 少 工作 并 行进 行 以 及 将 什么 工作 留 做 串 
行 处 理 。 在 语音 识别 中 ， 音素 可 通过 一 个 并 行 系统 来 识别 ， 这 相当 于 假定 所 有 的 音素 声音 同 
时 发 出 。 然 后 ， 通 过 组 合 音素 顺序 识别 单词 。 在 其 他 系统 中 ， 如 果 相 同 的 音素 有 多 个 版 本 ， 
比如 根据 之 前 以 及 之 后 音素 的 不 同 ， 音 素 本 身 可 被 设计 为 更 简单 的 语音 发 声 的 序列 。 并 行 工 
作 是 好 的 ， 但 仅仅 是 在 一 定 程 度 上 ; 我 们 应 当 在 并 行 和 顺序 处 理 之 间 找 到 理想 的 平衡 。 为 了 
可 以 一 键 式 接 通 任意 人 的 电话 ， 我 们 可 能 需要 电话 上 有 百 万 按键 ;作为 蔡 代 ， 我 们 用 十 个 按 
键 并 以 序列 按键 来 拨 通 电话 。 

我 们 将 在 第 16 章 讨 论 图 模型 ， 其 中 我 们 将 会 看 到 HMM 可 以 看 作 一 类 特殊 的 图 模型 ， 
并 且 HMM 上 的 推断 和 学 习 操作 类 似 于 贝 叶 斯 网 络 中 的 对 应 操作 (Smyth ，Heckerman 和 Jor- 
dan 1997) 。 正 如 我 们 稍 后 就 会 看 到 的 ，HMM 有 多 种 扩展 ， 如 因子 HMM (factorial HMM) , 
其 中 在 每 一 时 间 步 ,一 定数 量 的 集体 生成 观测 的 状态 以 及 树 结构 HMM (tree - structured 
HMM) ， 其 中 存在 状态 的 层次 关系 。 这 种 一 般 的 形式 化 使 得 我 们 可 以 处 理 连续 状态 和 离散 状 
态 ， 称 作 线 性 动态 系统 (linear dynamical system) 。 对 于 这 类 模型 中 的 某 些 ， 不 可 能 做 精确 推 
断 ， 我 们 需要 近似 或 抽样 方法 (Ghahramani 2001 ) 。 


15.12 习题 


1. 给 定 一 个 有 三 个 状态 5S, S, S, 的 可 观测 马尔 可 夫 模 型 ， 其 初始 概率 为 : 
I = [0.5,0.2,0.3]" 
转移 概率 为 
A=|0.2 0.6 0.2 
0.1 0.1 0.8 





0.4 0.3 | 


产生 100 个 有 1000 个 状态 的 序列 。 

2. 使 用 上 题 中 产生 的 数据 来 估计 本 和 A， 并 和 产生 这 些 数 据 的 参数 进行 比较 。 

3. 形式 化 一 个 二 阶 马尔 可 夫 模 型 。 其 参数 是 什么 ”如何 对 一 个 给 定 的 状态 序列 计算 其 概率 ? 
对 于 一 个 可 观测 模型 如 何 学 习 其 参数 ? 

4. 证 明 任意 二 阶 (或 更 高 阶 ) 马尔 可 夫 模 型 可 转化 为 一 个 一 阶 马尔 可 夫 模 型 。 

5. 一 些 研 究 者 将 马尔 可 夫 模 型 定义 为 当 穿 越 一 条 红 ( 边 ) 的 时 候 产 生 一 个 观测 ， 而 非 到 达 一 
个 状态 。 这 种 模型 的 能 力 是 否 比 我 们 讨论 的 模型 更 强 ? 
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6. 从 一 个 你 选择 的 HMM 产生 训练 和 确认 序列 。 在 相同 的 训练 集 上 通过 变化 隐藏 状态 的 个 数 
来 训练 多 个 不 同 的 HMM 并 计算 相应 的 确认 似 然 。 观 察 确 认 似 然 如 何 随 着 状态 个 数 的 增加 
而 变化 。 

7. 在 式 (15. 38) 中， 如 果 我 们 有 多 元 观测 ， 那 么 M- 步 的 方程 是 什么 ? 

8. 考虑 容器 - 球 的 例子 ， 如 果 我 们 不 放 回 地 抽取 ， 那 么 会 有 何不 同 ? 

9. 假定 在 任意 时 刻 我 们 都 有 两 个 来 自 不 同 字 母 表 的 观测 ， 例 如 ， 每 天 观测 两 种 货币 的 币值 。 
如 何 使 用 HMM 实现 ? 

10. 如 何 得 到 增 量 HMM? 增 量 HMM 允许 在 必要 时 增加 新 的 隐藏 状态 。 
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图 模型 可 视 地 表示 变量 之 间 的 相互 影响 ， 并 具有 一 个 优点 : 利用 条 件 独立 性 ， 可 以 将 大 
量变 量 上 的 推断 分 解 成 一 组 涉及 少量 变量 的 局 部 计算 。 在 给 出 一 些 手 工 推断 的 例子 之 后 ， 我 
们 讨论 d- 分 离 和 各 种 图 上 的 信念 传播 算法 。 


16. 1 引言 


图 模型 (graphical model) 又 称 贝 叶 斯 网 络 ( Bayesian network)、 信 和 念 网 络 ( belief network ) 
或 概率 网 络 (probabilistic network) ， 它 由 节点 和 节点 之 间 的 有 向 弧 构 成 。 每 个 节点 对 应 于 一 
个 随机 变量 X， 并 且 具 有 一 个 对 应 于 该 随机 变量 的 概率 值 P(X)。 如 果 存 在 一 条 从 节点 到 
节点 了 的 有 向 弧 ， 则 表明 对 YY 有 直接 影响 (direct influence)， 这 一 影响 被 条 件 概率 
P(Y|XX) 所 指定 。 网 络 是 一 个 有 向 无 环 图 ( directed acyclic graph，DAG) ， 即 图 中 没有 环 。 节 
点 和 节点 之 间 的 弧 定 义 了 网 络 的 结构 ， 而 条 件 概率 是 给 定 结 构 的 参数 。 

一 个 简单 的 例子 在 图 16-1 中 给 出 ， 它 对 下 雨 (R) 引起 草地 变 湿 ( 丈 ) 建 模 。 天 下 雨 的 可 
能 性 为 40% , 并且 下 雨 时 草地 变 湿 的 可 能 性 为 90% ; 也 许 10% 
的 时 间 雨 下 得 不 够 ， 不 足以 让 我 们 认为 草地 被 淋 湿 。 在 这 个 例子 CFR) Pow Bi 
中 ， 随 机 变量 是 二 元 的 ， 它 们 或 者 为 真 或 者 为 假 。 存 在 20% 的 可 
能 性 草地 变 湿 而 实际 上 并 没有 下 两， 例如 ， 使 用 喷 水 器 时 。 Ca 

我 们 可 以 看 到 三 个 值 就 可 以 完全 指定 联合 分 布 P(R，WW)。 
如 果 P(R) =0.4， 则 P( ~R) =0.6, HH, P(~W|R) =0.1， 图 16-1 对 下 雨 是 湿 草 地 原因 
Ti P(~W| ~R) =0.8。 联 合 概率 表示 成 的 贝 叶 斯 网 络 建 模 

P(R,W) = P(R)P(W |R) 
通过 在 其 父 节 点 取 所 有 可 能 值 上 求 和 ， 我 们 可 以 计算 湿 草地 的 (边缘 ) 概率: 
P(W) = 2 P(R,W) = P(W|R)P(R) + P(W| ~ R)P( ~R) 


= 0.9 x0.4 +0.2 x0.6 = 0.48 
如 果 我 们 知道 下 过 雨 ， 则 湿 草 地 的 概率 为 0.9; 如 果 我 们 相信 没有 下 过 雨 ， 则 湿 草地 的 
概率 低 至 0.2; 不 知道 是 否 下 过 雨 ， 这 个 概率 是 0. 48。 
图 16-1 显示 了 一 个 因果 图 (causal graph) ， 解 释 草 地 变 湿 的 主要 原因 是 下 雨 。 贝 叶 斯 规 
则 人 允许 我 们 颠倒 因果 关系 并 且 做 出 诊断 (diagnosis) 。 例 如 ， 已 知 草地 是 湿 的 ， 则 下 过 十 的 概 
率 可 以 计算 如 下 : 
P(W|R)P(R 
P(RIW) = PS ice 1 = 0.75 


知道 草地 是 湿 的 把 下 雨 的 概率 由 0. 4 增加 到 0. 75 ， 这 是 因为 PCW | R) 高 , I PCW | ~R) 低 。 
我 们 通过 添加 节点 和 弧 形 成 图 ， 并 产生 依赖 性 。X 和 了 是 独立 事件 (independent event) , 
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如 果 
P(X,Y) = P(X)P(Y) (16.1) 
给 定 第 三 个 事件 Z，X 和 YY 是 条 件 独立 事件 (conditional independent event), ， 如 果 
P(X,Y|Z) = P(X|Z)P(Y|Z) (16. 2) 
这 也 可 以 写成 
P(X|Y,Z) = P(X|Z) (16.3) 


在 图 模型 中 ， 并 非 所 有 的 节点 都 是 连接 的 ; 实际 上 ， 一 个 节点 一 般 只 连接 少数 其 他 节 
点 。 特 定 的 子 图 蕴含 条 件 独立 性 陈述 ， 并 且 这 些 使 得 我 们 可 以 将 一 个 复杂 的 图 分 解 成 较 小 的 
子 集 ， 其 中 可 以 局 部 地 做 出 推断 ， 并 且 稍 后 其 结果 在 图 上 传播 。 有 三 种 典型 情况 ,并且 可 以 
使 用 它们 作为 子 图 来 构造 较 大 的 图 。 


16.2 条 件 独立 的 典型 情况 


1. 情况 1: 头 到 尾 连接 (head-to-tail connection) 


三 个 事件 可 以 顺序 连接 ， 如 图 16-2(a) 所 示 。 这 里 ,我 们 看 到 ,给 定 Y,，X 与 Z 是 独立 
的 : 知道 了 就 知道 Z 的 一 切 ， 知 道 X 的 状态 并 不 能 为 Z 增加 附加 信息 ， 记 作 P(Z LY, X) = 
P(Z 17Y)。 我 们 说 Y 阻塞 (block) 从 XX 到 Z 的 路 径 , 或 者 换 句 话说 ，Y 2% (separate) X 和 Z, 
意 指 如 果 删 掉 了 ， 则 不 存在 工 和 2 之 间 的 路 径 。 在 这 种 情况 下 ， 联 合 概率 写作 


P(X,Y,Z) = P(X)P(Y¥ |X)P(Z|Y) (16.4) _ 


这 种 表示 联合 概率 的 方式 意味 着 独立 性 : 
P(Z1X,7) = POLIZ) POPU IOREIY = azir) (16.5) 
典型 地 ,下 是 了 的 原因 ， 而 了 是 2 的 原因 。 例如， 如 图 16-2(b) 所 示 , X 可 以 是 多 云 
(C) ， 了 可 以 是 下 雨 (R) ， 而 2 可 以 是 湿 草 地 ( 丈 ) 。 我 们 可 以 沿 着 链 传播 信息 。 如 果 我 们 不 
知道 多 云 状 态 ， 则 有 
P(R) = P(R|C)P(C) + P(R| ~ C)P( ~ C) =0.38 
P(W) = P(W|R)P(R) +P(W| ~ R)P( ~ R) = 0.48 
假设 早上 我 们 看 到 天 气 是 多 云 ， 关 于 草地 湿 的 概率 我 们 能 够 说 什么 ? 为 此 ， 我 们 需要 先 
将 证 据 传 播 到 中 间 节 点 R， 然 后 传 到 询问 节点 Ww. 
P(W|C) = P(W|R)P(R|C) +P(W| ~ R)P( ~ R|C) =0.76 





a) 模型 
Koma CDa O Pa 
b) 例子 


图 16-2 头 到 尾 连 接 。a) 三 个 节点 顺序 连接 。 给 定 中 间 节 点 Y, X MZ 是 独立 的 : PCZ |Y, 
XX) =P(Z |Y)。b) 例 子 ， 天气 多 云 导 致 下 雨 ， 而 下 雨 又 导致 湿 草 地 
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知道 天 气 多 云 提高 了 湿 草 地 的 概率 。 我 们 还 可 以 使 用 贝 叶 斯 规则 向 后 传播 证 据 。 假 设 我 们 
旅游 归来 ， 看 到 我 们 的 草地 是 湿 的 ， 那 天 多 云 的 概率 是 多 少 ? 我 们 使 用 贝 叶 斯 规则 逆转 方向 : 


P(C|W) = Pew Pte) - 


知道 草地 湿 将 天 气 多 云 的 概率 从 它 的 默认 ( 先 验 ) 值 0.4 提高 到 0. 65 。 
2. 情况 2: 尾 到 尾 连接 (tail-to-tail connection) 


X 可 能 是 两 个 节点 Y 了 和 2 的 父 节点 ， 如 图 16-3(a) 所 示 。 联 合 密度 可 以 写作 
P(X,Y,Z) = P(X)P(Y|X)P(Z|X) (16.6) 
通常 ，Y 和 2Z 是 通过 依赖 的 ; 给 定 X， 它 们 变 成 独立 的 : 


P(Y,Z |X) = P(X) > = AOO = P(Y|X)P(Z|X) (16.7) 


当 它 的 值 已 知 时 , X IÆ YM ZEKE, RRAZ, XA SE. 
在 图 16-3(b) 中 ,我们 看 到 一 个 例子 ， 那 里 多 云 (C) 天 气 影响 下 雨 (R) 和 使 用 喷 水 器 
(S), 一 个 是 正 的 而 男 一 个 是 负 的 。 例 如 ,知道 下 十 ,我 们 可 以 使 用 贝 叶 斯 规则 逆转 依赖 


性 ， 并 推断 原因 : 
PCC|R) -PELOPC) _ P(R|C)P(C) 


P(R) > PCR,C) 
P(R|C)P(C) 
~P(R |C)P(C) +P(R| ~ C)P( ~ C) 
注意 ， 这 个 值 大 于 P(C); 知道 下 雨 提 高 了 天 气 多 云 的 概率 。 
在 图 16-3(a) 中 ， 例 如， 如 果 基 未 知 但 知道 Y， 则 我 们 可 以 推断 七， 然后 使 用 它 推断 Zo 
在 图 16-3(b) 中 ， 知 道 喷 水 器 的 状态 对 下 雨 的 概率 有 影响 。 如 果 我 们 知道 喷 水 器 在 工作 ， 则 
P(R|S) = È P(R,C|S) = P(R|C)P(C|S) +P(R| ~ C)P( ~ C|S) 


0. 65 


(16.8) 





= 0. 89 


ey E,W 
P(S) 
这 小 于 P(R) =0.45, DETENTIE, Dal ABS 7K a AF AE 
在 多 云天 气 的 不 同 状态 。 如 果 知 道 喷 水 器 未 工作 ， 则 用 同样 的 方法 我 们 发 现 PCR | ~S) = 
0.55; 这 次 ， 下 雨 的 概率 提高 了 。 


=P(R|C) +P(R| ~ 





POS LPO) ia 
(5) 


PCC)=0.5 
P(S|C)=0.1 PCRIC)=0.8 
P(S| ~ C)=0.5 PCR] ~ C)=0.1 


a) 模型 b) 例子 
K 16-3 尾 到 尾 连 接 。 针 是 两 个 节点 Y 了 和 2 的 父 节 点 。 给 定 父 节点 ， 两 个 子 节点 是 独立 的 : 
P(Y|X, Z) =P(Y |X)。 在 这 个 例子 中 ， 多 云天 气 导致 下 雨 ， 也 使 得 我 们 不 太 可 能 
使 用 喷 水 器 


ww ai bobt.com DOD00000 


图 模 型 243 





3. 情况 3: LAELAE (head-to-head connection) 


在 头 到 头 节 点 中 ， 有 两 个 父 节 点 站 和 了 工 连接 到 单个 节点 Z， 如 图 16-4(a) 所 示 。 联 合 密 
度 记 作 


P(X,Y,Z) = P(X)P(Y)P(Z|X,Y) (16. 10) 
PCS)=0.2 PCR)=0.4 






PCR, S)=0.95 
PCW ~ S)=0.90 
PW] ~ R, S)=0.90 
POW ~R, ~S)=0.10 


a) 模型 b) 例子 


图 16-4 头 到 头 连 接 。 一 个 节点 有 两 个 父 节 点 ; 除非 给 定子 节点 ， 否 则 两 个 父 节 点 是 独立 的 。 
例如 ， 一 个 事件 可 能 有 两 个 独立 的 原因 


下 和 了 是 独立 的 : P(X, Y) =P(X)P(Y) (习题 2); 当 已 知 Z 时 ， 它 们 变 成 依赖 的 。 对 
于 这 种 情况 ， 阻 塞 或 分 离 的 概念 不 同 : 当 观 察 不 到 2Z 时 , 忒 和 了 了 之 间 的 路 径 被 阻塞 ， 或 它们 
是 分 离 的 ; 当 2Z( 或 者 它 的 任意 后 代 ) 被 观测 到 时 ， 它 们 不 再 是 被 阻塞 的 、 分 离 的 ， 也 不 是 独 
立 的 。 

例如 ， 在 图 16-4(b) 中 我 们 看 到 ， 节 点 WORE) 有 两 个 父 节 点 : R( 下 雨 ) 和 5( 喷 水 
器 ) ， 因 此 它 的 概率 是 这 两 个 值 上 的 条 件 概率 PCW IR, S) 。 

不 知道 其 他 事情 ， 草 地 湿 的 概率 通过 联合 概率 边缘 化 来 计算 : 

P(W) = ¥ P(W,R,S) 

R,S 


=P(W|R,S)P(R,S) + P(W| ~ R,S)P( ~ R,S) 
+P(W|R, ~ S)P(R, ~ S) + P(W| ~ R, ~ S)P( ~ R, ~ S) 
=P(W|R,S)P(R)P(S) +P(W| ~ R,S)P( ~ R)P(S) 
+P(W|R, ~ S)P(R)P( ~ S) +P(W| ~ R, ~ S)P(~ R)P( ~ S) = 0.52 
现在 ， 假 设 我 们 知道 暑 水 器 开 着 ， 则 可 以 检查 这 对 这 个 概率 的 影响 。 这 是 一 个 因果 ( 预 
W) 推理 : 
P(W|S) = ¥ P(W,R|S) 


=P(W|R,S)P(R|S) +P(W| ~ R,S)P( ~ R|S) 
=P(W|R,S)P(R) +P(W| ~ R,S)P( ~ R) = 0.92 
我 们 看 到 PCW |S) >PCW), ， 知 道 喷 水 器 工作 提高 了 湿 草 地 的 概率 。 
给 定 草地 是 湿 的 ， 我们 也 可 以 计算 喷 水 器 开 着 的 概率 。 这 是 诊断 推理 。 


P(S |W) = PLORS) -= 0.35 
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P(S|W) >P(S) ， 即 知道 草地 是 湿 的 提高 了 喷 水 器 开 着 的 概率 。 现 在 让 我 们 假设 下 过 
雨 ， 于 是 ， 我 们 有 


P(s|R,w) = PCOWIR,S)P(S|IR) _ P(W|R,S)P(S) 


P(WIR) P(W 
这 个 值 比 P(S | W), PRERA B (explaining away); 给 定 我 们 已 知 下 过 雨 ， 则 喷 水 器 导致 湿 草 地 
的 概率 降低 了 。 已 知 草 地 是 湿 的 ， 下 雨 和 喷 水 器 成 为 相互 依赖 的 。 类 似 地 , P(S | ~R, W) > 
P(S | W)。 当 我 们 比较 PCR | W) 和 P(R| WWW，5) 的 时 候 ， 看 到 类 似 的 情况 (习题 3)。 

我 们 可 以 通过 组 合 这 样 的 子 图 来 构造 更 大 的 图 。 例 如 ， 在 图 16-5 中 ,我们 组 合 了 前 面 
的 两 个 子 图 ， 可 以 计算 如 果 多 云 草地 湿 的 概率 : 
P(W|C) = $, P(W,R,S|C) 





= 0.21 


= P(W,R,S|C) +P(W, ~ R,S| C) +P(W,R, ~ S| C) +P(W, ~ R, ~ S|C) 
= P(W|R,S,C)P(R,S|C) +P(W| ~ R,S,C)P( ~ R,S | C) 
+P(W|R, ~ S,C)P(R, ~ S|C) +P(W| ~ R, ~ S,C)P(~R, ~ S|C) 
= P(W|R,S)P(R| C)P(S|C) + P(W| ~ R,S)P( ~ R| C)P(S|C) 
+ P(W|R, ~ S)P(R|C)P(~ S|C) +P(W| ~ R, ~ S)P(~ RIC)P(~ S|C) 
其 中 ， 我 们 使 用 了 P(W|R, S, C)=P(W|R, S); ERAS, WIRWFC: RAS 阻塞 
T WAIC 之 间 的 路 径 。 类 似 地 ，P(R，5 1C) -P(R|C)P(S|C); 给 定 C，R 和 5 是 独立 
的 。 这 里 ， 我 们 看 到 贝 叶 斯 网 络 的 优点 : 它 明 
确 地 表示 了 独立 性 ， 并 且 使 得 我 们 能 够 将 推断 
分 解 成 若干 从 证 据 节 点 到 查询 节点 传播 小 的 变 p gc) 


PCC)=0.5 







=0.1 PCRIC)=0.8 


量 组 上 的 计算 。 P(S|~ C)=0.5 P(R|~ C)=0.1 
我 们 可 以 计算 P(C | WW) ， 并 且 有 诊断 推理 : 
P(W|C)P(C) 
P(C|W) = PCW) 


图 形 表示 是 可 视 的 并 且 有 助 于 理解 。 这 个 网 
络 提供 了 条 件 独立 性 陈述 ， 并 且 人 允许 我 们 将 多 个 
变量 的 联合 分 布 问题 分 解 成 局 部 结构 ; 这 简化 了 
分 析 和 计算 。 图 16-5 表示 了 一 个 四 个 二 元 变量 
的 联合 密度 ， 它 通常 需要 存储 15 =1), 
而 这 里 只 有 9 个 。 如 果 每 个 节点 只 有 少量 的 父 节 
点 ， ean ce. 正如 
我 们 在 前 面 看 到 的 ， 当 联合 密度 分 解 成 较 小 变量 
组 的 条 件 密度 时 ， 推 断 也 会 变 得 更 容易 : 

P(C,S,R,W) = P(C)P(S|C)P(R|C)P(W|S,R) (16. 11) 
在 一 般 情况 下 ， 当 我 们 有 变量 X,，…，X。 时 ， 有 


PCWIR,S)=0.95 
PCMR, ~ S)=0.90 
PCW ~ R, S)=0.90 
POW) ~R, ~S)=0.10 


图 16-5 通过 组 合 较 简单 的 子 图 形成 较 大 的 
图 ， 使 用 隐 含 的 条 件 独 立 性 ， 使 信 
息 在 图 上 传播 


d 
P(X ,Xs) = [] P(X; | parents(X;) ) (16. 12) 
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TE, HEX, 的 任意 子 集 ， 即 根据 证 据 赋 予 它们 一 定 的 值 ， 通 过 边缘 化 联合 分 布 ， 
我 们 可 以 计算 X, 的 其 他 子 集 的 概率 分 布 。 这 开销 很 大 ， 因 为 它 需 要 计算 指数 个 联合 概率 
组 合 ， 即 使 每 个 都 能 像 式 (16. 11) 那样 被 简 人 化。 然而， 给 定 相 同 的 证 据 ， 对 于 不 同 的 ,， 
我 们 可 以 使 用 相同 的 中 间 值 (条 件 概率 的 乘积 和 边缘 化 的 和 ) ， 并 且 在 16.5 节 我 们 将 讨论 
信念 传播 算法 ， 通 过 进行 一 次 可 以 用 于 不 同 查询 节点 的 多 次 局 部 中 间 计 算 ， 以 更 小 开销 
做 推断 。 

尽管 在 这 个 例子 中 我 们 使 用 了 二 元 变量 ， 但 是 可 以 将 它 直接 推广 到 具有 任意 多 个 可 能 值 
的 离散 变量 (具有 m 个 可 能 值 和 上 个 父 节点 ， 需 要 大 小 为 m 的 条 件 概 率 表 ) 或 连续 变量 ( 参 
数 化 的 ,例如 p(Y|x) ~N (w(x 10), o°), 参见 16.3.3 节 )。 

使 用 贝 叶 斯 网 络 的 一 个 主要 优点 是 我 们 不 必 明 确 指定 某 些 变量 作为 输入 ， 某 些 其 他 变量 
作为 输出 。 任 何 变量 集 的 值 都 能 通过 证 据 建 立 ， 而 任何 其 他 变量 集 的 概率 都 可 以 推断 ， 并 且 
非 监督 学 习 和 监督 学 习 之 间 的 区 别 变 得 模糊 不 清 。 从 这 个 角度 看 ， 一 个 图 模型 可 以 看 作 一 个 

“概率 数据 库 ”( Jordan 2009 ) , A ET BE a ae 

在 一 个 问题 中 ， 还 可 能 存在 隐藏 变量 (hidden variable) ， 它 们 的 值 不 能 通过 证 据 获 得 。 
使 用 隐藏 变量 的 优点 是 可 以 更 容易 地 定义 依赖 结构 。 例 如 ， 在 购物 篮 分 析 中 ， 当 我 们 想 找 出 
销售 的 商品 之 间 的 依赖 性 时 ， 比 如 我 们 知道 婴儿 食品 ““ 尿 布 ” 和 "牛奶 "之 间 的 依赖 性 ， 
即 顾客 购买 其 中 一 种 ， 多 半 可 能 购买 男 外 两 种 ， 我 们 不 是 将 ( 非 因果 的 ) 弧 放 在 这 三 者 之 间 ， 
而 可 能 是 指定 一 个 隐藏 节点 “家 庭 婴 儿 ” 作 为 这 三 种 商品 消费 的 隐藏 原因 。 当 存在 隐藏 节点 
时 ， 它 们 的 值 用 观测 节点 的 给 定 值 估计 并 填写 。 

需要 强调 一 点 ， 从 节点 到 了 的 链 不 是 也 不 必 总 是 意味 着 因果 关系 (causality)。 它 只 是 
BRE X Æ Y LA Aiya (direct influence), BI Y RRRA X 的 值 为 条 件 ， 并 且 即 使 没有 
直接 的 原因 ， 两 个 节点 之 间 仍 可 能 有 一 个 边 。 通 过 提供 关于 数据 如 何 产生 的 解释 ， 在 构造 网 
络 时 有 因果 关系 更 可 取 ( Pearl 2000) ， 但 是 这 种 因果 关系 并 非 总 是 能 够 得 到 的 。 


16.3 图 模型 实例 
16.3.1 朴素 贝 叶 斯 分 类 


对 于 分 类 ， 对 应 的 图 模型 如 图 16-6(a) 所 示 ， 其 中 x 是 输入 ，C 是 一 个 多 元 变量 ， 取 类 
编码 的 天 个 状态 之 一 。 正 如 我 们 在 图 16-1 的 下 十 和 湿 草 地 的 例子 中 看 到 的 ， 贝 叶 斯 规则 人 允 
许 诊断 : 

P(C)p(x|C 
P(C|x) = POA 

如 果 输 入 是 相互 独立 的 ， 则 我 们 有 如 图 16-6 (b) 所 示 的 图 ， 它 称 作 梓 素 贝 叶 斯 分 类 器 
(naive Bayes’classifier) ， 因 为 它 忽 略 了 输入 之 间 可 能 的 依赖 性 ( 即 相 关 性 ) ， 将 一 个 多 变量 问 
题 归 约 为 一 组 单 变量 问题 : : 


在 5.5 和 5.7 节 ， 我 们 已 经 分 别 对 数值 和 离散 的 x 讨论 过 这 种 情况 的 分 类 。 
聚 类 也 类 似 ， 不 同 之 处 在 于 多 项 式 类 指示 变量 C 在 分 类 中 是 可 观测 的 ， 而 类 似 的 簇 指 
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示 变 量 2 是 不 可 观测 的 。 期 望 最 大 化 算法 (7.4 节 ) 的 EE 步 使 用 贝 叶 斯 规则 道 转 弧 的 方向 ， 
并 估计 给 定 输入 的 簇 指 示 子 。 

图 16-6(a) 是 一 个 创建 数据 过 程 的 生成 模型 ( generative model) 。 仿 佛 我 们 先 通过 由 P(C ) 
抽样 ， 随 机 地 选择 类 C， 然 后 固定 C， 通 过 从 p(x | C) 抽 样 选取 x。 将 数据 看 作 由 一 个 可 以 
可 视 化 为 图 的 因果 生成 模型 抽样 不 仅 易于 理解 ， 而 且 也 便于 在 许多 领域 进行 推 新 。 例 如 ， 在 
文本 分 类 中 产生 一 个 文本 可 以 看 作 这 样 一 个 过 程 : 一 位 作者 决定 写 一 篇 关于 某 特 定 主题 的 文 
章 ， 然 后 选择 相应 的 词 集合 。 在 生物 信息 学 中 ， 众 多 使 用 图 形 方法 的 领域 之 一 是 系统 演化 树 
(phylogenetic tree) 。 系 统 演化 树 是 一 个 有 向 图 ， 其 树叶 是 当前 物种 ， 非 终端 节点 是 过 去 的 祖 
先 ， 它 们 在 物种 形成 事件 中 进化 成 多 个 物种 ， 而 条 件 概率 依赖 于 物种 和 它 的 祖先 之 间 的 进化 
EE BS (Jordan 2004) 。 

P(C) 


p(x|C) 





a) 用 于 分 类 的 图 模型 b) 朴素 贝 叶 斯 分 类 器 假定 输入 是 独立 的 
图 16-6 


16.3.2 隐 马 尔 可 夫 模 型 


隐 马 尔 可 夫 模 型 (hidden Markov model, HMM) 在 前 面 的 第 15 章 讨论 过 ， 它 是 情况 1 的 
一 个 例子 ， 其 中 相继 的 节点 q qais qa 对 应 于 一 阶 马尔 可 夫 模 型 中 链 上 的 三 个 状态 。 时 
刻 上 的 状态 q, 仅 依赖 于 时 刻 上 -1 时 的 状态 ¢,_., FF AAR G1, 9, 独立 于 q ， 
Pig EEREN, = P(q, lq.) 
正如 状态 转移 概率 矩阵 4 所 给 定 的 (参见 图 16-7) 。 每 个 隐藏 变量 产生 一 个 被 观测 的 离散 观 
测 ， 正 如 观测 概率 和 矩阵 B 给 定 的 。 隐 马尔 可 夫 模 型 的 前 后 向 过 程 是 我 们 马上 将 要 讨论 的 信 
念 传播 的 特例 。 


A=P(q'iq"") 


q' 9 g 
p= 
n=P(q') 
B=P(O'q') 
oO! oO" Oo 


图 16-7 隐 马 尔 可 夫 模 型 可 以 绘制 成 图 模型 其 中 4 是 隐藏 状态 ， 带 阴影 的 0' 是 被 观测 的 
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不 同类 型 的 HMM 可 以 用 不 同 的 图 模型 表示 。 在 图 16-8(a) 中 ， 显 示 了 一 个 输入 - 输出 
HMM ( input-output HMM) (参见 15.9 节 ) ， 其 中 有 两 个 分 离 的 观测 输入 - 输出 序列 ， 还 有 一 
个 隐藏 状态 序列 。 输 出 观测 依赖 于 状态 ， 也 依赖 于 输入 ; 可 以 将 这 看 作 和 矩阵 B， 其 元 素 不 是 
标量 ， 而 是 输入 的 参数 化 函数 。 这 也 可 以 类 似 地 看 作 混 合 专家 架构 (参见 12. 8 节 ) ， 其 选 通 
输出 (隐藏 状态 ) 还 依赖 于 前 一 时 间 步 的 选 通 值 。 

另 一 类 容易 可 视 化 的 HMM 是 因子 HMM (factorial HMM) ， 其 中 有 多 个 分 离 的 隐藏 序列 ， 
它们 相互 影响 ， 产 生 单个 观测 序列 。 一 个 例子 是 显示 父母 -子女 关系 的 家 谱 (pedigree) ( Jor- 
dan 2004) ; 图 16-8(b) 对 减 数 分 裂 (meiosis) 建 模 ， 其 中 两 个 序列 对 应 于 父亲 和 母亲 (他 们 是 
独立 的 ) 的 染色 体 ， 并 且 在 每 个 位 点 (基因 ) ， 后 代 从 父亲 那里 接受 一 个 等 位 基因 ， 或 从 母亲 
那里 接受 其 他 等 位 基因 。 

图 16-8(c) 显示 的 耦合 HMM (coupled HMM ) 对 产生 两 个 平行 观测 序列 的 两 个 平行 但 相关 
的 隐藏 序列 建 模 。 例 如 ， 在 语音 识别 中 ， 我 们 可 以 有 一 个 观测 的 讲话 声学 序列 和 一 个 观测 的 
层 动 图 像 的 可 视 序列 ， 每 个 序列 都 有 自己 的 隐藏 状态 ， 隐 藏 状态 中 的 二 者 是 依赖 的 。 

在 图 16-8(d) 中 显示 的 开关 HMM( switching HMM) 中， 有 天 个 平行 的 、 独 立 的 隐藏 状态 
序列 ， 而 状态 变量 S 在 任何 时 刻 都 挑选 其 中 一 个 序列 ， 并 且 选 中 的 序列 产生 输出 。 也 就 是 
说 ， 我 们 随 着 进展 在 状态 序列 之 间 切 换 。 





c) #}4HMM 


16-8 不 同 的 HMM 模型 ， 关 于 从 潜在 变量 的 马尔 可 夫 序列 产生 的 观测 数据 (用 阴影 显示 ) 方 法 的 不 同 假设 


在 典型 的 HMM 中 ， 尽 管 观测 可 能 是 连续 的 ， 但 是 状态 是 离散 的 。 线 性 动态 系统 (linear 
dynamical system) 又 称 卡尔 曼 滤 波 器 (Kalman filter) ， 其 中 状态 和 观测 都 是 连续 的 。 在 基本 情 
况 下 ， 时 刻 : 状态 是 时 刻 ! — 1 状态 的 具有 零 均 值 高 斯 加 性 噪声 的 线性 函数 ， 并 且 在 每 个 状态 
中 ， 观 测 是 另 一 个 具有 零 均 值 高 斯 加 性 噪声 的 线性 函数 。 这 两 个 线性 映射 和 两 个 噪声 源 的 协 
方差 构成 参数 。 我 们 先前 讨论 的 任何 HMM 的 变 体 都 可 以 类 似 地 推广 到 使 用 连续 状态 。 
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通过 适当 地 修改 图 模型 ， 可 以 使 该 结构 适应 产生 数据 过 程 的 特点 。 这 种 将 模型 与 数据 匹配 
的 过 程 是 权 街 偏 傈 和 方差 的 最 佳 模型 选择 过 程 。 缺 点 是 在 这 种 扩充 的 HMM 上 ， 精 确 推 断 已 经 
不 再 可 能 ， 并 且 需 要 近似 或 抽样 方法 (Chahramani 
2001, Jordan 2009) 。 


16.3.3 ”线性 回归 


线性 回归 可 以 看 作 一 个 图 模型 ， 如 图 16-9 所 示 。 
输入 x 从 先 验 p(x) 中 抽取 ， 而 因 变 量 7 依赖 于 输入 x*、 
权重 w( 从 被 a 参数 化 的 先 验 抽取 ， 即 从 p(w) ~ (0， 
a "7 了) 中 抽取 ) 和 噪声 e( 被 B 参数 化 ， 即 P(s) ~ (0， 
gy): pte |p) 
p(r'|x',w) ~ N(w'x',B') (16.13) 
训练 集中 有 六 个 这 样 的 对 ， 显 示 在 图 16-9 HE 
形 框 中 。 给 定 一 个 新 的 输入 x'， 目标 是 估计 "， 它 将 是 E[r' |x’, wo 
权重 w 未 给 出 ,但 可 以 使 用 训练 集 [ 夭 , rj] 估计 它们 。 在 式 (16.9) 中 , C 是 R 和 5 的 原 
因 ， 其 中 我 们 用 
P(R|S) = X$ P(R,C|S) = P(R|C)P(C|S) +P(R| ~ C)P(~ C|S) 


FAS BANC, mS MATT R ARE, RITA 


p(r’ |x',r,X) = fpr |x’,w)p(w | X,r)dw 





图 16-9 线性 回归 的 贝 叶 斯 网 络 





fee ot ay POEL Ew) pl) 
= [p(r | x’,w) ai dw (16. 14) 


œ [p(r' |x’,w) [[p(" | x',w) p(w) dw 
其 中 ， 第 二 行 根 据 贝 叶 斯 规则 ， 而 第 三 行 根据 训练 集中 实例 的 独立 性 。 


16.4 不 分 离 


现在 ,我 们 用 d - 分 离 (d - separation) 推广 阻塞 和 分 离 的 概念 ， 并 用 这 样 的 方式 定义 它 ， 
使 得 对 于 节点 的 任意 子 集 4、B 和 C， 我 们 可 以 检查 给 定 C，4 和 B 是 否 是 独立 的 。Jordan 
(2009 ) 将 这 想象 成 一 个 球 在 图 上 跳动 ， 并 称 为 贝 叶 斯 球 ( Baye’s ball) 。 我 们 将 C 中 的 节点 设 
置 为 它们 的 值 ， 在 4 中 的 每 个 节点 上 放置 一 个 球 ， 让 这 些 球 按 照 一 组 规则 四 处 移动 ， 并 检查 
是 否 有 一 个 球 到 达 B 中 某 个 节点 。 如 果 是 ， 则 它们 是 依赖 的 ; 否则， 它们 是 独立 的 。 

为 了 检查 给 定 C, 4 AB 是 否 是 d- 分 离 的 ,我们 考虑 4 中 任意 节点 与 B 中 任意 节点 之 间 
的 所 有 可 能 路 径 。 任 意 一 条 这 样 的 路 径 是 阻塞 的 (blocked) ， 如 果 

1) 路 径 上 边 的 方向 或 者 满足 头 到 尾 ( 情 况 1) ， 或 者 满足 尾 到 尾 ( 情 况 2) ， 并 且 该 节点 在 
C 中 ; 或 者 

2) 路 径 上 边 的 方向 满足 头 到 头 ( 情 况 3) ， 并 且 无 论 哪 个 节点 还 是 它 的 任意 后 代 都 不 在 
C 中 。 
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如 果 所 有 的 路 径 都 是 阻塞 的 ， 则 我 们 认为 4 和 B 是 d- 分 离 的 ， 即 给 定 C 它们 是 独立 的 ; 
否则 ， 它 们 是 依赖 的 ， 例 子 在 图 16-10 中 。 


16.5 “信念 传播 a 


我 们 已 经 讨论 了 一 些 手 工 推断 的 例子 。 现 


在 ， 我 们 感 兴趣 的 是 回答 诸如 P(X |B) 这 种 查询 (a) (©) 
的 算法 ， 其 中 X 是 图 中 的 任意 查询 节点 (query 
node) ， 而 是 其 值 已 被 设置 为 确定 值 的 证 据 节 O 
(evidence node) 的 任意 子 集 。 按 照 Pearl( 1988 ) CF) 
的 做 法 ， 我 们 从 链 这 种 最 简单 的 情况 开始 ， 逐 渐 
地 考虑 更 复杂 的 图 。 我 们 的 目标 是 找到 诸如 贝 叶 (c) 
斯 规则 或 边缘 化 这 样 的 概率 过 程 的 对 应 图 操作 ， 
使 得 推断 任务 可 以 映射 到 通用 的 图 算法 。 图 16-10 4d- 分 离 的 例子 。 给 定 C， 路 径 BCDF 
是 被 阻塞 的 ， 因 为 C 是 一 个 尾 到 尾 
16.5.1 链 节点 。BEFG 被 阻塞 因为 是 一 
a 个 头 到 尾 节点 。BEFD 是 被 阻塞 的 ， 
链 (chain ) 是 头 到 尾 节点 的 序列 ， 有 一 个 没有 


除非 给 定 F(E C) 
父 节点 的 根 (root) 节点 ， 其 他 所 有 节点 都 只 有 一 


个 父 节点 ; 除 最 后 一 个 称 作 叶 (leaf) 的 节点 外 ， 其 他 所 有 节点 都 有 一 个 子 节点 。 如 果 证 据 在 
XX 的 祖先 中 ， 则 我 们 只 能 做 诊断 推断 ， 并 沿 着 链 向 下 传播 证 据 ; 如 果 证 据 在 蕊 的 后 代 中 ， 则 
我 们 可 以 使 用 贝 叶 斯 规则 做 因果 推断 并 向 上 传播 。 让 我 们 看 一 般 情况 : 我 们 在 两 个 方向 上 都 
AUER, LBE EHFG E (参见 图 16-11)。 注 意 ， 任 何 证 据 节 点 都 将 X 与 链 上 证 据 男 一 侧 
的 节点 分 离 ， 并 且 它 们 的 值 不 影响 P(X); 这 对 GO 400 
PARESE. 0-000000 

我 们 把 每 个 节点 都 看 作 一 个 处 理 机 ， 它 从 它 © = = - Q o © 
的 邻居 接收 消息 并 在 局 部 计算 后 沿 着 链 传递 。 每 图 16-11 沿 链 推断 
个 节点 都 局 部 地 计算 并 存储 两 个 值 : A(X) PE |X) 是 传播 的 E- ， 其 中 庆 从 它 的 子 节 
点 接收 并 传 给 它 的 父 节点 ; MaX) =P(E* |X) 是 传播 的 E*， 其 中 从 它 的 父 节 点 接收 并 
传 给 它 的 子 节点 。 

PCX |E) PLE PE E porn 
_P(E* | X)P(E- | X)P(X) 
P(E) 








_ P(X | E*)PCE*) P(E” |X) P(X) 
P(X) P(E) 
=aP(X|E*)P(E” |X) = am(X)A(X) (16. 15) 
对 于 某 个 不 依赖 于 X 值 的 规范 化 常量 a， 第 二 行 是 因为 给 定 ，E!* 和 EE 是 独立 的 ， 而 第 三 
行 是 根据 贝 叶 斯 规则 。 
如 果 节 点 被 例 示 为 确定 的 值 6， 则 A(@) 三 1 ， 而 对 于 e 关 6 有 A 和 (e) 三 0。 没 有 例 示 的 





wwaibbt.com D000000 





250 第 16 章 





叶 节 点 了 对 所 有 的 x 值 上 入 (x) 三 1。 没 有 例 示 的 根 节点 了 了 取 先 验 概率 作为 5 值 ， 对 于 任意 
x, T(x)=P(x), 
给 定 这 些 初始 条 件 ， 我 们 可 以 设计 一 个 沿 着 链 传播 证 据 的 递归 方案 。 
对 于 7 消息 ,我 们 有 
a(X) =P(X|E*) = X, P(X |U,E*)P(U| E+) 
U 


= 2, POPPE LB") = 2, P(X | U)a(U) (16. 16) 


其 中 ,第 二 行 基于 U BABE X 5E 之 间 的 路 径 这 一 事实 。 
对 于 入 -消息 ,我 们 有 
A(X) =P(E X) = X PCE” |X,Y)P(Y|X) 


= POE |Y)P(Y|X) = 2 P(Y IXA) (16. 17) 


Hh, BITEF Y IR X 5 E 之 间 的 路 径 这 一 事实 。 

当 证 据 节 点 的 值 被 设置 时 ， 它 们 启动 传播 ， 并 且 节 点 持续 更 新 ， 直 至 收敛 。Pearl 
(1988 ) 将 这 看 作 一 台 并 行 机 器 ， 其 中 每 个 节点 用 一 个 处 理 器 实现 ， 每 个 处 理 器 都 与 其 他 处 
理 器 并 行 ， 通 过 下 - 消息 和 A -消息 与 它 的 父 节 点 和 子 节 点 交换 信息 。 


16.5.2 树 


链 是 受 限 的 ， 因 为 每 个 节点 只 能 有 一 个 父 节 点 和 一 个 子 节 点 ， 即 单个 原因 和 单个 症状 。 
在 树 中 ， 每 个 节点 都 可 以 有 多 个 子女 ， 但 是 除 单个 根 外 ， 所 有 的 节点 都 只 有 一 个 父 节点 。 相 
同 的 信念 传播 也 可 以 在 树 上 进行 ， 与 链 的 不 同 之 处 是 : 节点 由 它 的 诸 子女 接收 不 同 的 =- 消 
息 ， 并 且 向 它 的 诸 子 女 发 送 不 同 的 下 =- 消息 。Ay(X) 表 示 开 从 它 的 子女 了 接收 的 消息 ， 
Ty( 耻 ) 表 示 钻 发送 到 它 的 子女 了 的 消息 。 

我 们 还 是 将 可 能 的 证 据 划分 成 两 部 分 : 天 是 以 查询 节点 XX 为 根 的 子 树 中 的 证 据 节 点 ， 
m E‘ 是 其 他 证 据 节 点 (参见 图 16-12)。 注 意 , E PAA 
不 必 是 XX 的 祖先 ， 而 可 以 在 以 X 的 兄妹 节点 为 根 的 子 树 
中 。 重 要 的 是 ,分离 了 EE' 和 EE ,使 得 我 们 可 以 有 
P(E*, E` |X) =PCE* |X)P(E- Ix), 因而 有 

P(X|E) = am(X)A(X) 
HR, a 是 一 个 规范 化 常量 。 

A(X) 是 以 式 为 根 的 子 树 中 的 证 据 ， 并 且 如 图 16-12 所 

示 ， 如 果 针 有 两 个 子女 Y 了 和 2Z， 则 它 用 下 式 计算 : 
A(X) =P(E; |X) = P(E; ,Ez |X) 





图 16-12 ”在 树 中 ， 一 个 节点 可 能 
有 多 个 子女 ,但 只 有 一 


= P(E, |X)P(Ez |X) = Ay(X)Az(X) (16.18) 个 父 节 点 
在 一 般 情况 下 ， 如 果 卫 有 mm 个 子女 了 (j=1,…,，m)， 
则 我 们 将 它们 的 所 有 A EHAE: 
A(X) = ITA, (X) (16. 19) 


—H X WEF A TA Ue T A 证 据 ， 它 就 将 这 些 证 据 上 传 给 它 的 父 节 点 : 
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Ax(U) = X A(X)P(X |U) (16. 20) 
类 似 地 ， 在 男 一 个 方向 ，m(X) 是 收集 在 PCU | E*) PHBE AE. IR AYER m- 
HES X: 
m(X) =P(X|Ex) = $ P(X|U)PCUIL EZ) = $, P(X|U)m,(U) (16.21) 
Sia, TITY n AP eB X Fe. TERE, 了 从 所 接收 的 是 下 从 它 的 父 节 点 A 
它 的 其 他 子女 Z 接收 的 ， 它 们 一 起 组 成 Ey (参见 图 16-12): 


etU PIE) = P(X|ES £3) = PS XB P(X ER) _ PUB LDPE) 





P(E;) J P(E;) 
=aAz(X)m(X) (16. 22) 
同样 ， 如 果 Y 了 不 止 Z 一 个 兄妹 ， 而 是 有 多 个 ， 则 我 们 需要 取 它 们 所 有 的 A 值 的 乘积 : 
my (X) = a] J Ay (X) a(x) (16. 23) 


16.5.3 多 树 


在 树 中 ， 节 点 有 单个 父 节点 ， 即 单个 原因 。 在 多 树 (polytree) 中 ， 一 个 节点 可 以 有 多 个 
父 节点 ， 但 是 我 们 要 求 图 是 单 连 接 的 ， 这 意味 着 任意 两 个 节点 之 间 只 有 一 条 链 。 如 果 我 们 删 
除了 了， 则 图 就 被 划分 成 两 个 分 支 。 这 是 必要 的 ， 使 得 我 们 
可 以 继续 将 Ex 划分 成 EY 和 Ex ， 给 定 X， 则 它们 是 独立 
的 (参见 图 16-13 ) 。 

如 果 针 有 多 个 父 节 点 到 (=1，…, 大 ) ， 则 它 从 所 有 
父 节 点 接收 5- 消息 mx(U;)， 按 如 下 方法 组 合 它 们 : 

a(X) =P(X|E:) = P(X,E} x, Eix Bax) 


二 的 二 PANS, „U2, U) 


U Up 





P(U, | Efi) -PCU, | Ei,x) 图 16-13 在 多 树 中 ， 一 个 节点 可 以 

有 多 个 子 节点 和 多 个 父 节 

=> 7 LPO, Uy ,-+,U,) [| mU) 点 , 但 是 图 是 单 连接 的 ， 

[ri i=l 即 U, 和 YY 之 间 只 有 一 条 
(16. 24) 经 过 XX 的 链 


并 将 它 传递 到 多 个 子女 Y G=1, =, m): 
my (X) = alfas, (X)m(X) (16.25) 
在 X 具 有 多 个 父 节 点 时 ， X 传递 到 它 其 中 的 一 一 个 父 节点 U 的 入 -消息 不 仅 组 合 了 XX 从 它 的 
子女 接收 的 证 据 ， 而 且 还 有 立 从 它 的 其 他 父 节点 U,(r 半 让 接收 的 7 一 消 息 ,它们 一 起 构成 Ejx : 
Ax(U) =P(Ejx|X) = J, X, P(E; EE aX Us | U,) 
a > > PCE; Eu, ,x |X, UU PCE | U;) 


= » X PCE |X) P( Eù, x | Ua) P(X | Ug) P CO ys | U;) 
X Usi 
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P( Uy | Eo, nx) P(Ei,x) 





Se (Ex |X) PUUL P(X |U,,;,U,)PCU,,; | U;) 
-PD È P(E; | X)PCU,4; | Eu.) P(X | Uyi, U;:) 
-PA 29 (X) TI mx (U PX |U, U) 
BLAX) Y PX UU) TP aU, (16.26) 
与 树 一 os ep a, 父 节点 取 它 从 子女 接收 的 A -消息 的 乘积 
A(X) = TA, (X) (16. 27) 


在 这 种 有 多 个 父 节 点 的 情况 下 ， 我 们 需要 存储 和 处 理 给 定 所 有 父 节点 的 条 件 概 率 
p(X UV,，…，U)， 对 于 大 的 ¢， 这 开销 很 大 。 目 前 已 经 提出 了 一 些 方法 ， 将 复杂 度 从 上 的 指 
数 降低 到 线性 。 例 如 ， 在 噪声 或 门 (noisy OR gate) 中 ， 当 多 个 父 事件 出 现时 ， 任 意 父 节点 都 足 
以 导致 该 事件 并 且 似 然 不 减少 。 如 果 在 仅 有 一 个 原因 ( Ui) 出 现时 ，X 发 生 的 概率 是 1 - 9; 


eb lt (16. 28) 

当 它 们 的 一 个 子 集 了 出 现时 , X 发 生 的 概率 用 下 式 计算 : 
P(X|T) =1 = [le (16. 29) 

ujeT 


例如 ， 假 设 湿 草地 有 两 个 原因 : 下 十 和 使 用 喷 水 器 ， 其 概率 为 ge = gs =0.1， 即 二 者 都 
有 90% 的 可 能 性 导致 湿 草 地 。 于 是 , P(W|R, ~S)=0.9, P(W|R, S) =0.99, 
另 一 种 可 能 是 ， 给 定 参数 集 ， 将 该 条 件 概 率 写 成 某 个 函数 ， 例 如 一 个 线性 模型 


k 
P(X |U,- ; U, ww pw) = sigmoid ( ¥ w,U, + wo ) (16. 30) 
iad 


其 中 ，sigmoid 确保 输出 是 0 和 1 之 间 的 概率 。 例 如 ， 在 训练 阶段 ， 我 们 可 以 学 习 参 数 
wii=TI，…，d) ， 最 大 化 样本 上 的 最 大 似 然 。 


16.5.4 结 树 


如 果 有 环 ， 即 如 果 基 本 无 向 图 有 环 (例如 ， 如 果 式 的 父母 有 共同 的 祖先 ) ， 则 我 们 先前 
讨论 的 算法 就 不 能 运行 。 在 这 种 情况 下 ， 存 在 多 条 传播 证 据 的 路 径 ， 例 如 ， 在 计算 上 的 
概率 时 ， 我 们 不 能 说 XX 把 EE 分 离 成 E+ 和 Ei ， 而 分 别 作 为 原因 (向 上 ) 和 诊断 (向 下 ) 证 据 ; 
删除 式 不 会 把 图 一 分 为 二 。 在 蕊 上 对 它们 取 


条 件 概率 不 会 使 它们 独立 ， 而 它们 两 个 可 能 (Ce) O 
WITA X Wy Abe ee E o 

如 果 可 以 将 该 图 转换 成 多 树 ， 则 我 们 仍 G) (s) se 
然 可 以 使 用 同样 的 算法 。 我 们 定义 团 节 点 
(clique node) 对 应 于 原 变量 的 一 个 子 集 ， 并 Cw) Cw) 
且 连 接 它 们 ， 使 得 它们 形成 一 棵 树 ( 参 见 图 a 一 个 多 连接 图 b) 节点 被 聚 类 的 对 应 结 树 
16-14) 。 于 是 ， 利 用 这 种 改动 ， 我 们 可 以 运 图 16-14 
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行 同 样 的 信念 传播 算法 ， 这 就 是 颖 树 算 法 (junction tree algorithm ) 的 基本 思想 (Lauritzen 利 | 
Spiegelhalter 1988; Jensen 1996; Jordan 2009) - 


16.6 无 向 图 : 马尔 可 夫 随 机 场 


SAE. RENE TAK, dice AO leet tlie 
HII ARREARS, RRN EARE RRE ERA ENN, AA E pM R 
随机 场 (Markov random field ) f7J Ml, i ee eae ee H 
J EAS HEM A Pr 1] 

AG Lisp AUC Ld AAS eS Fr ke X RESAPE, AREE i Pad des ABER OP A hi FAE 
[of | Zorn RRP N, ZIRIA ( Pearl 1988 ) 

向 于 没有 方向 ， 因 此 没有 是 的 关 尾 之 分 ， 所 以 无 向 图 的 处 理 更 简单 a 给 定 C oe 
eA ALB BE Apa OY. Fe) R a Re ee RR CORRETA ee RAEE — 

从 4 中 的 一 个 节点 到 8B 中 的 一 个 节点 的 路 径 。 如 果 有 ， 则 它们 是 依 顿 的 。 奋 则 ， iA He 
TAS Bp WAZA RER CIA Da, ET C MMR Be A AL BY 
FH eee SL a eS NPCs R Tea 

在 无 向 图 的 情况 下 ， 我 们 不 提 及 父 ak Fe, A Te A Celique) ， 团 是 节点 的 
集合 ， 使 得 该 集合 HORE REDE WS RARE CEH, HA Hl (monimal clique) JETER 
PRCA Bie “S28 hd E A 在 无 问 网 中 ， 我 们 有 势 函 数 ( potential 
function Jye (Xe). JEN, 是 团 C 中 变量 的 集合 ， 并 且 我 们 定义 联合 分 布 为 外 中 极 大 团 的 势 
PR ACHE ALL 


p(X) = FT] bee) (16. 31) 
JEP Z EWER RG MAE) = 1: 


Z= > [fue (16. 32) 
OED, 4r A LE TEU (E19 ( 2d RES) 

FAT DLAC, EN E A BEADLE ESHER, 并 且 在 定义 它们 时 可 以 有 更 大 的 日 
HEE, 一 般 地 ， 我 们 可 以 把 势 峭 数 看 作 表 现 局 部 约束 ， 即 偏爱 某 种 局 部 配置 而 不 是 其 他 局 部 
配置 。 例 如 ， 在 图 像 中 ， 我 们 可 以 定义 邻近 像素 之 间 的 两 两 势 消 数 ， 它 们 的 颜色 相似 时 的 到 
值 比 颜色 不 同时 的 取 值 更 大 (Bishop 2006). PE, Te EYER ALTE AEDS. Fe yer 
佑 计 其 他 未 知 像素 的 值 ， 例 如 ， 基 于 咬合 (occlusion ) 

如 果 我 们 有 有 向 图 ， 则 容易 通过 天 公所 有 方向 将 它 重 新 绘制 成 无 向 图 ， 玫 有 是 如 果 一 个 凶 臣 
1 有 一 个 父 节 点 ， 则 我 们 可 以 简单 地 令 两 两 势 也 数 转 为 条 件 概率 。 然而， 如 果 一 个 节点 有 多 个 
父 节 点 ， 则 由 于 头 到 头 和 点 的 “解释 还 离 "现象 使得 这 上 ES 节点 是 依 顿 的 ， 央 页 我 们 应 该 将 这 些 
父 节 点 放 在 相同 的 团 中 ， 使 得 财 的 势 包 含 所 有 的 父 站 点， 这 通过 如 下 方法 来 实现 : 用 链 连 接 六 
ee eae nt re IPE RUS” (marrying) 父母 ， 而 这 
一 过 程 称 作 教化 (moralization ) 。 顺 便 说 一 下 ， 教 化 是 产 生 无 向 结 树 的 步骤 之 

将 信念 传播 算法 用 于 无 癌 网 是 直 堆 了 ao . AAA eR CE TY, IP ELAS 
SUE SNA RERUDING ARS ”这样 ， 我 们 可 以 在 无 向 链 和 无 向 树 -做 推断 。 但 是 在 节点 具有 多 


Srt 


N 
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个 父 节 点 的 多 树 中 ， 教 化 必然 导致 环 ， 因 此 这 种 方法 不 行 。 一 个 技巧 是 将 其 转换 成 因素 图 
(factor graph) ， 除 了 变量 节点 之 外 ， 使 用 第 二 种 类 型 的 因素 节点 (factor node) ， 并 且 将 联合 
分 布 表 示 成 因素 的 乘积 (Kschischang Frey 和 Loeliger 2001) : 


p(X) = FAA) (16. 33) 
Ss 


Hh, X, 代表 被 因素 S 使 用 的 变量 节点 的 子 集 。 有 向 图 是 一 个 特例 ， 其 中 因素 对 应 于 局 部 
条 件 分 布 ; 无 向 图 是 另 一 个 特例 ， 其 中 因素 是 极 大 团 上 的 势 函数 。 正 如 我 们 在 图 16-15 中 所 
看 到 的 ， 这 样 做 的 优点 是 教化 后 仍然 能 够 保持 树 
结构 。 

可 以 将 信念 传播 算法 推广 到 因素 图 ， 这 称 作 
和 一 积 算 法 (sum- product algorithm ) ( Bishop G) G) 





2006, Jordan 2009 ) 。 该 算法 具有 同样 的 思想 : 
做 一 次 局 部 计算 ， 并 作为 消息 通过 图 来 传播 它 (7) 
们 。 不 同 的 是 ， 这 里 有 两 类 消息 ， 因 为 有 因素 和 oF 


变量 两 类 节点 ， 所 以 我 们 要 区 分 它们 的 消息 。 注 
意 ， 因 素 图 是 一 个 二 部 图 ， 一 类 节点 只 能 与 男 一 
类 节点 直接 连接 。 

在 信念 传播 中 或 在 和 - 积 算法 中 ， 给 定 固定 
为 某 特定 值 的 证 据 节 点 的 集合 无， 目标 是 找 出 节 
点 集合 X 的 概率 ， 即 求 P(X1E)。 在 某 些 应 用 中 ,我 们 感 兴趣 的 可 能 是 找 出 最 大 化 联合 概 
率 分 布 p(X) 的 所 有 站 的 设置 。 例 如 ， 在 无 向 的 情况 下 ， 势 函数 对 局 部 一 致 性 编码 ， 这 种 方 
法 将 在 整个 图 上 传播 局 部 一 至 性， 并 找 出 最 大 化 全 局 一 致 性 的 解 。 在 节点 对 应 于 像素 而 两 两 
势 函数 支持 相关 性 的 图 中 ， 这 种 方法 将 实现 噪声 删除 ( Bishop 2006 ) 。 实 现 这 种 方法 的 算法 
称 作 最 大 - 积 算 法 (max-product algorithm) ( Bishop 2006, Jordan 2009) ， 它 与 和 - 积 算法 一 
样 ， 但 是 取 最 大 值 ( 最 可 能 的 值 ) ， 而 不 是 取 和 (边缘 化 ) 。 这 类 似 于 我 们 在 第 15 章 讨 论 的 隐 
马尔 可 夫 模 型 的 正 反 向 算法 与 Viterbi 算法 之 间 的 区 别 。 

注意 ， 节 点 不 必 对 应 于 诸如 像素 这 样 的 低层 概念 。 例 如 ， 在 视频 应 用 中 ， 我 们 可 以 有 针 
对 不 同类 型 的 角 或 不 同方 向 线 的 节点 ， 使 用 势 函 数 检查 相 容 性 ， 以 便 观 察 它们 是 否 可 能 是 相 
同 解释 的 一 部 分 (例如 ， 回 忆 Necher 立方 体 )， 使 得 总 体 相 容 的 解 在 组 合 局 部 证 据 之 后 显现 。 

推断 算法 在 多 树 或 结 树 上 的 复杂 度 由 父 节 点 的 最 大 个 数 或 最 大 团 的 大 小 决定 ， 当 这 些 很 
大 时 ， 严 格 推断 是 不 可 行 的 。 在 这 种 情况 下 ， 我 们 需要 使 用 近似 或 抽样 算法 (Jordan 1999, 
Bishop 2006, Jordan 2009) 。 


图 16-15 a) 一 个 有 向 图 ， 教化 后 它 将 有 一 个 
环 ; b) 它 对 应 的 因素 图 是 一 棵 结 树 。 
三 个 因素 是 f,(R)=P(R), f,(S) = 
P(S), £.(R, S, W)=P(W |R, S) 


16.7 学 习 图 模型 的 结构 


像 任 何 学 习 方 法 一 样 ， 学 习 图 模型 有 两 部 分 工作 。 第 一 部 分 是 给 定 结构 学 习 参 数 。 这 相 
对 容易 ( Buntine 1996) ， 并 且 在 图 模型 中 ， 可 以 训练 条 件 概率 表 或 它们 的 参数 设置 (如 式 
(16. 30) 中 的 参数 ) ， 以 最 大 化 似 然 ， 或 者 如 果 已 知 适 当 的 先 验 ， 可 以 用 贝 叶 斯 方法 (参见 第 
14 章 )。 
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第 二 部 分 更 困难 、 更 有 趣 ， 是 学 习 图 结构 ( Cowell 等 1999 ) 。 这 基本 上 是 一 个 模型 选择 
问题 ， 就 像 学 习 多 层 感 知 器 结构 的 增 量 方法 一 样 ( 参 见 11. 9 节 ) ， 我 们 可 以 将 这 部 分 看 作 在 
所 有 可 能 的 图 空间 中 进行 搜索 。 例 如 ， 我 们 可 以 考虑 增加 或 删除 一 条 弧 、 增 加 或 删除 一 个 隐 
藏 结 点 的 操作 ， 然 后 进行 搜索 、( 在 每 次 中 间 迭 代 使 用 参数 学 习 ) 评 估 每 一 步 的 改进 。 然 而 
需要 注意 ， 为 了 检查 过 拟 合 ， 我 们 应 该 适当 地 正则 化 ， 这 对 应 于 偏爱 较 简单 图 的 贝 叶 斯 方法 
(Neapolitan 2004) 。 然 而 ， 由 于 状态 空间 很 大 ， 如 果 有 人 类 专家 ， 能 够 手工 地 定义 变量 之 间 
的 因果 关系 ， 并 创建 变量 小 的 组 群 子 图 ， 将 是 特别 有 益 的 。 


16.8 影响 图 


正如 在 第 3 章 中 我 们 将 概率 推广 到 具有 风险 的 动作 一 样 ， 影 响 图 (influence diagram) 是 
一 种 图 形 模型 ， 它 是 包括 决策 和 效用 的 图 模型 的 推广 。 一 个 影响 图 包含 机 会 节点 (chance 
node) ， 表 示 我 们 在 图 模型 中 使 用 的 随机 变量 (参见 图 16-16) 。 影 响 图 还 包含 决策 节点 和 效 
用 节点 。 决 策 节 点 (decision node) 表示 动作 的 
选择 。 效 用 节点 (utility node) 用 于 计算 效用 。 
决策 可 以 根据 机 会 节点 做 出 ， 并 且 可 能 影响 其 
他 机 会 节点 和 效用 节点 。 

影响 图 上 的 推断 是 对 图 模型 上 的 信念 传播 的 
扩展 。 给 定 一 些 机 会 节点 上 的 证 据 ,， 证 据 传播 ， 
并 且 对 每 一 个 可 能 的 决策 计算 效用 ， 选 择 具 有 最 图 16-16 ”对 应 于 分 类 的 影响 图 。 依 赖 于 输入 x, 
大 效用 的 决策 ， 对 一 个 给 定 输入 分 类 的 影响 图 如 选择 一 个 导致 一 定 效用 ( 风险 ) 的 类 
图 16- 16 所 示 。 给 定 输入 ， 决 策 节点 决定 类 ， 对 于 每 个 选择 ， 我 们 得 到 一 定 的 效用 (风险 ) 。 


16.9 注释 


图 模型 有 两 个 优点 。 一 个 优点 是 我 们 可 以 呈现 变量 的 相互 影响 ， 更 好 地 理解 过 程 ， 例 
如 ， 通 过 使 用 因果 生成 模型 。 第 二 个 优点 是 通过 找 出 对 应 于 诸如 贝 叶 斯 规则 或 边缘 化 等 基本 
概率 过 程 的 图 操作 ， 可 以 将 推断 任务 映射 到 可 以 有 效 表示 和 实现 的 通用 图 算法 。 

变量 和 它们 之 间 的 依赖 性 用 图 直观 地 表示 ， 以 及 许多 变量 的 复杂 全 局 函数 分 解 成 每 个 都 
只 涉及 变量 的 一 个 小 子 集 的 局 部 函数 的 乘积 的 思想 ， 被 用 在 决策 、 编 码 和 信和 号 处 理 的 不 同 领 
域 ，Kschischang Frey 和 Loeliger(2001 ) 给 出 了 评述 。 

推断 算法 在 多 树 或 结 树 上 的 复杂 度 由 父 三 点 的 最 大 个 数 或 最 大 团 的 大 小 决定 。 当 这 些 很 
大 时 ， 严 格 推 断 可 能 是 不 可 行 的 。 在 这 种 情况 下 ,我们 需要 使 用 近似 或 抽样 算法 。Jordan 等 
1999 MacKay 2003 、Andieu 等 2003 、Bishop 2006 和 Jordan 2009 讨论 了 各 种 近似 算法 和 马 
尔 可 夫 链 蒙特 卡 罗 (Markov chain Monte Carlo, MCMC) 算法 。 

图 模型 特别 适合 表示 贝 叶 斯 方法 ， 其 中 除了 代表 变量 节点 之 外 ， 还 有 代表 影响 观测 变量 
的 隐藏 参数 的 节点 。 我 们 还 可 以 引进 分 层 结构 ， 其 中 有 代表 超 参 数 的 节点 ( 即 代 表 一 级 参数 
先 验 的 二 级 参数 等 ) 。 

隐 马 尔 可 夫 模 型 也 是 一 种 图 模型 ， 并 且 事 实 上 任何 图 模型 都 可 以 在 时 间 上 展开 并 加 上 相 
继 复制 之 间 的 依赖 性 ， 从 而 在 时 间 上 扩展 。 这 种 动态 图 模型 (dynamic graphical model ) 在 也 包 
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括 时 间 维 的 领域 找到 了 应 用 一 例如 ， 语 音 识别 。 事 实 上 ， 隐 马尔 可 夫 模型 只 不 过 是 一 种 聚 
类 序列 问题 ， 其 中 时 刻 : 的 会 索引 不 仅 依赖 于 时 刻 : 的 观测 ， 而 且 依赖 于 时 刻 -1 的 索引 ， 
并 且 Baum- Welch 算法 是 期 望 最 大 化 算法 的 扩展 ， 以 便 也 包括 这 种 时 间 上 的 依赖 性 。 在 6.4 
节 中 我 们 讨论 过 因素 分 析 ， 其 中 少量 的 隐藏 因素 生成 了 观测 ;类似 地 ， 线 性 动态 系统 可 以 看 
作 这 种 因素 分 析 模型 的 序列 ， 其 中 当前 因素 也 依赖 以 前 的 因素 。 

需要 时 可 以 加 上 动态 依赖 性 。 例 如 ， 图 16-15 对 特定 的 一 天 湿 草地 的 原因 建 模 ;， 如果 我 们 
相信 昨天 的 天 气 对 今天 的 天 气 有 影响 (并 且 我 们 应 该 相信 一 一 在 相继 的 几 天 趋向 于 多 云 ， 然 后 
几 天 晴天 ， 如 此 下 去 )， 则 我 们 可 以 有 图 16-17 所 
示 的 动态 图 模型 ， 其 中 我 们 对 这 种 依赖 性 建 模 。 Co) a) 

一 般 的 图 模型 机 制 使 得 我 们 超越 纯粹 的 HMM 
能 力 并 且 导 致 性 能 的 提高 ， 例 如 ， 在 语音 识别 中 CGD Ce) Cs) Cr) 
(Zweig 2003, Bilmes 和 Bartels 2005 ) 。 图 模型 也 
可 以 用 于 计算 机 视觉 ， 例 如 ， 信 息 检索 ( Barnard 
等 2003 ) 和 场景 分 析 (Sudderth 等 2008 ) 。 图 模型 Cr) Cw) 
在 生物 信息 学 中 的 应 用 的 一 个 综述 在 Donkers 和 图 16-17 一 个 动态 版 本 ,其 中 有 一 个 展示 相 
Tuyls 2008 中 。 继 几 天 天 气 依赖 性 的 图 的 链 
16.10 “习题 


1. 在 分 类 问题 中 使 用 两 个 独立 的 输入 变量 ， 即 P(xz ，x | C) =p(xi | C)p(z | C)， 如 何 计算 
p(x, lx)? Apl lC) ~N (Cu; o) ERAR. 

. 对 于 头 到 头 节 点 ,证 明 式 (16. 10) Bi P(X, Y) =P(X) - P(Y). 

. 在 图 16-4 中, 计算 P(R|IW)、P(R|W, S)#IP(R|W, ~S), 

. 在 式 (16.30) 中 , 式 是 二 元 的 。 如 果 开 可 以 取 天 个 离散 值 之 一 ， 我 们 需要 对 它 做 何 修改 ? 

. 证 明 : 在 联合 分 布 可 以 表示 成 式 (16. 12) 的 有 向 图 中 ，> p(x) = 1。 

将 Necker 立方 体 绘制 成 定义 链 以 指示 互 斥 地 增强 或 禁止 不 同 拐角 解释 间 的 关系 。 

.如 何在 图 16-17 所 示 的 动态 天 气 图 上 进行 推断 ? 

. 用 图 16-9 的 方式 ， 为 两 类 的 线性 逻辑 斯 说 回归 给 出 图 模型 。 

. 提出 一 种 合适 的 度量 ， 这 种 度量 可 以 在 学 习 图 结构 中 用 作 状 态 搜索 。 合 适 的 操作 是 什么 ? 

10. 一 般 而 言 ， 在 报纸 上 ， 一 个 报道 者 在 连续 几 天 内 写 一 系列 关于 同一 主题 的 文章 作为 新 闻 

报道 追踪 。 如 何 使 用 图 模型 对 其 建 模 ? 
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我 们 在 前 面 的 章节 中 讨论 了 许多 不 同 的 学 习 算 法 。 尽 管 一 般 而 言 它 们 是 成 功 的 ， 但 没有 
哪 一 个 算法 总 是 最 准确 的 。 现 在 ， 我 们 将 讨论 由 多 个 学 习 器 组 成 的 模型 。 这 些 学 习 器 互补 ， 
因此 通过 组 合 它们 ， 我 们 可 以 获得 更 高 的 准确 率 。 


17.1 基本 原理 


在 任何 应 用 中 ， 我 们 可 以 使 用 多 个 学 习 算法 中 的 一 个 ， 而 使 用 某 算法 ， 存 在 对 最 终 学 习 
器 产后 影响 的 超 参数 。 例 如 ， 在 分 类 情况 下 ， 我 们 可 以 使 用 参数 分 类 器 或 多 层 感 知 器 ， 而 比 
如 对 一 个 多 层 感知 器 ， 我 们 还 要 确定 隐藏 单元 的 数目 。“ 没 有 免费 的 午餐 ”法 则 表明 没有 一 
个 学 习 算 法 可 以 在 任何 领域 总 是 产生 最 准确 的 学 习 器 。 通 常 的 方法 是 试验 很 多 种 算法 ， 然 后 
选择 一 个 在 单独 的 验证 集 上 性 能 最 佳 的 算法 。 

每 一 个 学 习 算 法 都 构建 了 一 个 基于 一 组 假设 的 某 种 模型 。 当 假设 在 数据 上 不 成 立时 ， 这 
种 归纳 偏 倚 将 导致 误差 。 学 习 是 一 个 不 适 定 问 题 ， 并 且 在 有 限 的 数据 上 ， 每 个 学 习 算法 都 收 
化 到 不 同 的 解 ， 并 在 不 同 的 情况 下 失效 。 可 以 通过 性 能 调节 使 得 一 个 学 习 算法 在 验证 集 上 达 
到 尽 可 能 最 高 的 准确 率 ， 但 是 调节 本 身 就 是 一 个 复杂 的 任务 ， 并 且 即 使 对 最 好 的 学 习 器 而 
言 ， 也 存在 一 些 实例 使 其 无 法 足够 准确 。 解 决 之 道 在 于 也 许 存在 另 一 种 学 习 方法 ， 在 这 些 实 
例 上 是 准确 的 。 通 过 合适 方式 将 多 个 学 习 器 组 合 可 以 提高 准确 率 。 近 来 ， 随 着 计算 和 存储 变 
的 更 为 廉价 ， 组 合 多 个 学 习 器 的 系统 也 随 之 流行 。 

这 里 有 两 个 基本 问题 : 

1) 如 何 产生 互补 的 基 学 习 器 ? 

2) 为 了 最 大 化 准确 率 ， 如 何 组 合 基 学 习 器 的 输出 ? 

本 章 的 讨论 将 回答 这 两 个 相关 的 问题 。 我 们 将 会 看 到 ， 模 型 组 合并 非 总 是 能 够 提高 准确 
率 的 诀 穿 ; 模型 组 合 确实 总 是 增加 训练 和 检验 的 时 间 和 空间 复杂 度 ， 并 且 除 非 小 心地 训练 基 
学 习 器 并 且 精 明 地 组 合 它们 的 决策 ， 否 则 我 们 只 会 为 这 种 附加 的 复杂 性 付出 代价 ， 而 在 准确 
率 方面 得 不 到 显著 收益 。 


17.2 ”产生 有 差异 的 学 习 器 


由 于 组 合 总 是 采取 类 似 决 策 的 学 习 器 是 没有 意义 的 ， 因 此 我 们 的 目标 是 可 以 寻 得 一 组 有 
差异 的 (diverse) 学 习 器 ， 它 们 采取 不 同 的 决策 ， 使 得 相互 之 间 可 以 互补 。 与 此 同时 ， 除 非 这 
些 学 习 器 至 少 在 它们 的 专门 领域 是 准确 的 ， 和 否则 组 合 也 不 可 能 获得 整体 成 功 。 因 此 ， 我 们 具 
有 双重 任务 : 最 大 化 个 体 学 习 器 的 准确 率 和 学 习 器 之 间 的 差异 性 。 现 在 ， 我 们 讨论 实现 这 些 
目标 的 不 同方 法 。 
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1. 不 同 的 算法 


我 们 可 以 使 用 不 同 的 学 习 算 法 来 训练 不 同 的 基 学 习 器 。 不 同 的 算法 对 数据 做 不 同 的 假设 
并 导致 不 同 的 分 类 器 。 例 如 ， 一 个 基 学 习 器 可 以 是 参数 的 ， 而 另 一 个 可 以 是 非 参 数 的 。 当 我 
们 决定 使 用 一 个 算法 的 时 候 ， 是 将 重点 放 在 单一 方法 上 并 忽略 所 有 其 他 方法 。 通 过 组 合 基于 
多 个 算法 的 多 个 学 习 器 ， 我 们 摆脱 了 做 单一 决策 ， 并 且 再 也 不 将 所 有 鸡蛋 放 在 同一 个 篮 
竹中。 


2. 不 同 的 超 参数 


我 们 可 以 使 用 相同 的 学 习 算法 ， 但 使 用 不 同 的 超 参 数 。 这 样 的 例子 包括 : 多 层 感 知 器 中 
的 隐藏 单元 数目 ， 太 最 近邻 中 的 上 值 ， 决 策 树 中 的 误差 闵 值 ， 支 持 向 量 机 中 的 核 函 数 等 。 对 
高 斯 参数 分 类 器 而 言 ， 协 方差 矩阵 是 否 共享 是 一 个 超 参 数 。 如 果 在 优化 算法 中 使 用 诸如 梯度 
下 降 这 样 的 最 终 状态 依赖 于 初始 状态 的 迭代 过 程 ， 如 使 用 向 后 传播 的 多 层 感知 器 ， 则 初始 状 
态 (如 初始 权重 ) 是 另 一 种 超 参数 。 当 我 们 用 不 同 的 超 参数 值 训 练 多 个 基 学 习 器 时 ， 我 们 对 
这 种 因素 取 平 均值 并 降低 方差 ， 从 而 减 小 误差 。 


3. 不 同 的 输入 表示 


不 同 的 基 学 习 器 也 可 能 使 用 相同 输入 对 象 或 事件 的 不 同 表 示 ， 从 而 使 得 集成 不 同类 型 的 
感知 器 、 测 量 、 模 态 成 为 可 能 。 不 同 的 表示 凸显 了 对 象 的 不 同 特征 ， 从 而 产生 更 好 的 识别 。 
在 许多 应 用 中 ， 存 在 多 个 信息 源 ， 我 们 期 望 使 用 所 有 这 些 数据 来 提取 更 多 的 信息 ， 并 在 预测 
中 到 达 更 高 的 准确 率 。 

例如 ， 在 语音 识别 中 ， 为 了 识别 语音 单词 ， 除 了 声学 输入 之 外 ， 我 们 还 可 以 使 用 讲话 者 
在 读 出 单词 时 的 嘴唇 视频 图 像 。 这 类 似 于 传感器 融合 (sensor fusion) ， 其 中 来 自 不 同 传感器 
的 数据 集成 在 一 起 ， 为 特定 应 用 提取 更 多 的 信息 。 

最 简单 的 方法 就 是 连接 所 有 数据 向 量 并 将 其 当 作 是 来 自 同一 数据 源 的 一 个 大 向 量 , 但 是 
这 种 方法 在 理论 上 似乎 不 太 合适 ， 因 为 这 样 相 当 于 对 取样 于 元 统计 分 布 的 数据 进行 建 模 。 此 
外 ， 更 高 的 输入 维度 使 得 系统 更 为 复杂 ， 并 且 为 了 得 到 精确 的 估计 需要 更 大 的 样本 。 我 们 采 
用 的 方法 是 使 用 不 同 的 基 学 习 器 在 不 同 的 数据 源 上 分 别 进行 预测 ， 然 后 组 合 它 们 的 预测 
结果 。 

即使 只 有 一 种 输入 表示 ， 即 通过 从 中 选择 随机 子 集 ， 我们 也 可 以 有 使 用 不 同 输入 特征 的 
多 个 分 类 器 ， 这 称 为 随机 子 空间 方法 (random subspace method ) (Ho 1998 ) 。 这 具有 如 下 效 
果 : 不 同 的 学 习 器 将 从 不 同 的 视角 考察 同一 问题 ， 并 且 将 是 鲁 棒 的 ; 这 也 有 助 于 降低 维 灾 
难 ， 因 为 输入 只 有 不 多 的 维 。 


4. 不 同 的 训练 集 


另 一 种 可 能 的 方法 是 使 用 训练 集 的 不 同 子 集 来 训练 不 同 的 基 学 习 器 ， 这 可 以 通过 在 给 定 
的 样本 上 随机 抽取 随机 训练 集 来 实现 ， 这 称 作 装 袋 (bagging) 。 抑 或 ， 可 以 串 行 地 训练 学 习 
嚣 ， 使 得 前 一 个 基 学 习 器 上 预测 不 准 的 实例 在 之 后 的 基 学 习 器 训练 中 获得 更 多 的 重视 ， 这 种 


wwaibbt.com DDD00000 





421 
l 


422 


260 第 17 章 





例子 有 提升 (boosting) 和 级 联 (cascading)， 这 些 方法 积极 地 尝试 生成 互补 的 学 习 器 ， 而 不 是 
靠 磁 运气 。 

训练 样本 的 划分 也 可 以 基于 输入 空间 的 局 部 性 来 完成 ， 使 得 每 个 基 学 习 融 在 输入 空间 的 
某 一 局 部 的 实例 上 训练 ， 这 就 是 我 们 在 第 12 章 讨 论 的 “混合 专家 模型 "所 做 的 ， 不 过 我 们 从 
多 学 习 器 组 合 的 角度 来 再 次 讨论 。 类 似 地 ， 可 以 将 主任 务 定义 为 由 基 学 习 需 实现 的 若干 子 任 
务 ， 如 纠 错 输出 码 (error-correcting output code) 所 做 的 那样 。 


5. 差异 性 与 准确 率 


韭 常 重要 的 一 点 是 当 生 成 多 个 基 学 习 器 时 ， 只 要 它们 有 合理 的 准确 率 即 可 ， 而 不 要 求 它 
CNB PABER, PARCEIRA AAN RAENT ARR IDERA, A 
学 习 器 的 选择 并 不 是 由 于 它 的 准确 性 ， 而 是 由 于 它 的 简单 性 。 然 而 ， 我 们 的 确 要 求 基 学 
是 有 差异 的 ， 即 在 不 同 实 例 上 是 准确 的 ， 专 注 于 问题 的 子 领 域 。 ee 
合 后 的 准确 性 ， 而 非 开 始 时 各 基 学 习 器 的 准确 性 。 例 如 ， 我 们 有 一 个 准确 率 为 80% 的 分 类 
器 。 当 确定 第 二 个 分 类 器 的 时 候 ， 我 们 不 关心 其 总 体 准 确 率 ， 只 要 我 们 知道 何 时 使 用 哪个 分 
类 器 ， 就 可 以 只 关心 其 在 第 一 个 分 类 器 误 分 类 的 20% 实例 上 的 准确 性 如 何 。 

正如 我 们 将 要 讨论 的 ， 这 意味 着 所 要 求 的 学 习 器 的 准确 性 和 差异 性 也 依赖 于 如 何 组合 它 
们 的 决策 。 如 果 像 投票 策略 中 那样 ， 学 习 器 用 于 所 有 输入 ， 则 它 应 该 处 处 准确 ， 并 且 必 须 处 
处 存在 差异 。 如 果 我 们 将 输入 空间 划分 成 针对 不 同学 习 器 的 专门 区 域 ， 则 差异 性 就 已 经 被 划 
分 所 保证 ， 而 学 习 咒 只 需要 在 它 的 局 部 域 中 是 准确 的 即 可 。 


17.3 ”模型 组 合 方案 


存在 不 同 的 组 合 多 个 基 学 习 器 来 产生 最 终 输 出 的 方法 : 
m 多 专家 组 合 ( multiexpert combination) 方法 让 基 学 习 天 并行 工作 。 这 些 方法 可 以 进 一 
步 划 分 成 两 类 : 
© 全 局 (global) 方 法 又 称 学 习 器 融合 (learner fusion) 。 在 全 局 方法 中 ， 给 定 一 个 输入 ， 
所 有 的 基 学 习 器 都 产生 一 个 输出 ， 并 且 所 有 这 些 输出 都 要 使 用 ,例子 包括 投票 (vot- 
ing) Al & # (stacking) 。 
e 在 局 部 (local) 方 法 ， 或 学 习 器 选择 (learner selection) 中 ， 例 如 在 混合 专家 (mixture of 
experts) 中 ， 有 一 个 选 通 (gating) 模 型 ， 它 考察 输入 ， 并 选择 一 个 (或 几 个 ) 学 习 器 来 
产生 输出 。 
m 多 级 组 合 ( multistage combination ) 方 法 使 用 一 种 顺序 (serial) 方 法 ， 其 中 下 一 个 基 学 习 
器 只 在 前 一 个 基 学 E 天 例 上 进行 训练 或 检验 。 其 基本 思想 是 ， 基 
学 习 融 (或 其 所 使 用 的 不 同 表示 ) 按 复杂 度 递增 排序 ， 使 得 除非 前 一 个 更 简单 的 基 学 
习 器 的 结果 是 不 足够 可 信 的 ， 否则 就 不 使 用 复杂 s 的 基 学 习 髓 (或 不 提取 其 复杂 表 
未) ， 一 个 这 样 的 例子 是 级 联 (cascading) 。 
假设 有 工 个 基 学 习 器 。 我 们 用 dj (x) Beas dk FE Ad a My 在 给 定 的 任意 维 输入 x 上 的 预测 。 
在 存在 多 种 输入 数据 表示 的 情况 下 ， 每 个 M 使 用 一 种 不 同 的 输入 表示 %。 最 后 的 预测 由 各 
个 基 学 习 器 的 预测 计算 : 
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y =f(di,d,,…,d, |) (17.1) 
其 中 太 :) 是 一 个 组 合 函数 ，@ 表示 其 参数 。 
当 有 天 个 输出 的 时 候 ， 每 个 学 习 器 有 天 个 输出 d(x), i=1, =, K, j=1,…, 上 ,而 
组 合 它 们 ， 我 们 仍然 产生 KK 个 值 y;,，i=1，…,K。 进 而 ， 比 如 在 分 类 中 ,我 们 选择 具有 最 
K y: 值 的 类 : 


如 果 y = maxy, ， 则 选择 Cio 
17.4 ”投票 法 


组 合 多 个 分 类 器 的 最 简单 方法 是 通过 投票 (voting) ， 这 相当 于 取 学 习 器 的 线性 组 合 ( 参 
见 图 17-1) : 


y= DLwd,, Hw, 20, $ w=1 (17.2) 
j 7 





图 17-1 基 学 习 器 是 必 ， 而 它们 的 输出 用 所 ) 组 合 。 这 是 单 输出 ;对 于 分 类 ， 每 个 基 学 习 器 
都 有 天 个 输出 分 别 用 于 计算 my ， 然 后 我 们 选择 最 大 的 。 注 意 ， 图 中 所 有 学 习 器 观测 
相同 的 输入 ; 可 能 存在 不 同 的 学 习 器 观测 相同 输入 对 象 或 事件 的 不 同 表示 
这 种 方法 也 称 系 综 (ensemble) 或 线性 集思广益 (linear opinion pool) 。 在 最 简单 的 情况 下 ， 
所 有 的 学 习 器 都 赋予 相等 的 权重 ， 而 我 们 有 简单 投票 (simple voting) ， 对 应 于 取 平 均值 。 取 
CANAL) 和 也 只 是 一 种 可 能 的 方法 ， 还 有 一 些 其 他 组 合 规则 ， 如 表 17-1 所 示 (Kitter 等 
1998 ) 。 如 果 输 出 不 是 后 验 概率 ， 则 这 些 规则 要 求 输出 规范 化 为 相同 的 尺度 (Jain，Nandaku- 
mar 和 Ross 2005 ) 。 


表 17-1 分 类 器 组 合 规则 















融合 函数 /(*) 
和 v= Lst dy 
加 权 和 yy = Swidirw 20,2 ju, = 1 
中 位 数 y; = medianjd; 
最 小 值 Yı = minjdj 
最 大 值 yi = maxjdi 


[14 
Jd 
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使 用 这 些 规 则 的 一 个 例子 显示 在 表 17-2 中 ， 它 展示 了 不 同 规则 的 效果 。 求 和 规则 最 直 
观 ， 并 且 实 践 中 使 用 最 广泛 。 中 位 数 规则 对 离 群 点 更 鲁 棒 ; 最 小 和 最 大 规则 分 别 是 翡 观 和 乐 
观 的 。 使 用 乘积 规则 ， 每 个 学 习 器 都 有 否决 权 ; 无 论 其 他 学 习 器 如 何 投票 ， 如 果 一 个 学 习 器 
的 输出 为 0， 则 整体 输出 就 为 0。 注 意 ,使 用 组 合 规则 之 后 ，y; 之 和 不 必 为 1。 
表 17-2 在 三 个 学 习 器 和 三 个 类 上 组 合 规则 的 例子 

















规则 Ci C2 Ci 
d, 0.2 0.5 0.3 
d, 0.0 0.6 0.4 
d; 0.4 0.4 0.2 
和 0.2 0.5 0.3 
中 位 数 0.2 0.5 0.4 
最 小 值 0.0 0.4 0.2 
最 大 值 0.4 0.6 0.4 
乘积 0.0 0. 12 0. 032 


在 加 权 和 中 ，d; 是 学 习 器 j 对 C; 类 的 投票 ， 是 它 的 投票 权重 。 简 单 投票 是 加 权 投票 
的 特殊 情况 ， 其 中 所 有 的 投票 者 具有 相同 的 权重 ， 即 w = 1/L。 在 分 类 中 ， 这 称 为 简单 多 数 
表决 (plurality voting) ， 其 中 得 票 最 多 的 类 胜出 。 当 只 有 两 个 类 时 ， 这 就 是 多 数 表 决 (majority 
voting) ， 其 中 胜出 类 获取 一 半 以 上 的 票 (习题 1) 。 如 果 投 票 者 还 能 提供 它们 为 每 个 类 投票 多 
少 的 额外 信息 (例如 ， 通 过 后 验 概率 ) ， 则 规范 化 后 ， 这 些 信息 即 可 用 作 加 权 投 票 (weighted 
voting) 方 案 的 权重 。 同 样 ， 如 果 d; 是 类 后 验 概率 PCC, |x, My), ， 则 我 们 可 以 简单 将 其 相 加 
(wj =17L) 并 选取 具有 最 大 y; 的 类 。 

对 于 回归 ， 可 以 使 用 简单 平均 、 加 权 平 均 或 中 位 数 来 融合 基 回归 器 的 输出 。 中 位 数 对 噪 
声 比 平均 值 更 鲁 棒 。 

另外 一 种 找 出 w; 的 可 能 方法 是 在 另外 的 验证 集 上 评估 学 习 器 (回归 器 或 分 类 器 ) 的 准确 
率 并 使 用 这 些 信 息 来 计算 权重 ， 使 得 我 们 可 以 对 更 准确 的 学 习 器 赋予 更 高 的 权重 。 这 些 权重 
也 可 以 由 数据 来 学 习 ， 我 们 将 在 17. 9 Wi BAZ MTC. 

投票 方案 可 以 看 作 贝 叶 斯 框架 下 的 近似 ， 以 权重 近似 先 验 模型 概率 ， 并 以 模型 决策 近似 
模型 条 件 似 然 ， 这 就 是 贝 叶 斯 模型 组 合 ( Bayesian model combination ) 。 例 如 ， 在 分 类 中 我 们 
有 w=P(M)，d;=P(C;|x，M)， 而 式 (17.2) 对 应 于 : 


P(C,|x) = 名 P(C, | x,M;)P(M;) (17.3) 
所 有 模型 


简单 投票 相当 于 假定 一 致 先 验 概率 。 如 果 先 验 分 布 更 倾向 于 较 简单 的 模型 ， 则 简单 投票 
将 赋予 简 单 模型 更 大 的 权重 。 我 们 可 以 不 集成 所 有 模型 ， 只 选取 一 个 我 们 认为 P(34 ) 值 高 
的 子 集 ， 或 者 可 以 执行 男 一 个 贝 叶 斯 步骤 并 计算 给 定 样 本 上 模型 的 条 件 概率 PCM; | X)， 并 
从 该 密度 中 选取 一 些 高 概率 的 模型 。 

Hansen 和 Salamon(1990) 证 明 : 给 定 (预测 ) 成 功 概率 高 于 1/2( 即 比 随 机 猜测 的 预测 好 ) 
的 一 组 独立 的 两 类 分 类 器 ， 使 用 多 数 表决 ， 预 测 准确 率 随 着 投票 分 类 器 个 数 的 增加 而 提高 。 

假设 d; 是 独立 同 分 布 的 ， 其 期 望 值 为 EL d;]. WAN Var(d;), 那么 当 使 用 w=1/L 取 
简单 平均 时 ， 输 出 的 期 望 值 和 方差 分 别 为 : 
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Ely] =E[ $, +4] = 了 LE[d] = Ela] 


Var(y) =Var (5 +4) = malga) = 7 F1Nar(d,) = FVar(d) (17.4) 


可 以 看 到 期 望 值 没有 改变 ， 因 而 偏 倚 也 不 改变 。 但 是 方差 ， Reem WeAtE 
票 者 数量 工 的 增加 而 降低 。 在 一 般 情况 下 ， 


Var(y) = iVar( Za) = g ( È Vata +25 £ Cova, dð) (17.3) 


这 暗示 ， 如 果 学 习 器 是 正 相关 的 ， 则 方差 (和 误差 ) 增 加 。 这 样 我 们 可 以 将 使 用 不 同 的 算 
法 和 输入 特征 看 作 ， 如 果 不 完全 消除 正 相 关 性 ， 也 是 在 努力 减少 正 相 关 性 。 在 17. 10 节 ， 我 
们 将 讨论 从 系 综 中 删除 高 度 正 相关 的 学 习 器 的 前 校方 法 。 

这 里 ， 我 们 还 看 到 ， 如 果 投 票 者 并 非 独 立 而 是 负 相 关 的 ， 则 进一步 降低 方差 是 可 能 的 。 
如 果 随 此 增加 的 偏 倚 不 是 更 高 的 话 (因为 这 些 目标 是 矛盾 的 ) ， 则 误差 也 会 降低 。 我 们 不 可 
能 有 大 量 分 类 器 ， 它 们 都 是 准确 的 并 且 是 负 相关 的 。 例 如 ， 在 混合 专家 模型 中 ， 学 习 器 是 局 
部 化 的 ， 专 家 是 负 相 关 的 ， 但 是 有 偏 傈 的 (Jacobs 1997) 。 

如 果 将 每 个 基 学 习 器 看 作 是 附加 在 真实 判别 式 或 回归 函数 上 的 随机 噪声 函数 ， 而 且 这 些 
噪声 函数 是 不 相关 的 并 且 均 值 为 0， 那 么 在 每 个 估计 上 的 平均 就 类 似 于 噪声 上 的 平均 。 从 这 
种 意义 上 讲 ， 投 票 具 有 光滑 函数 空间 的 效果 ， 并 且 可 以 看 作 是 一 个 在 真实 函数 上 具有 光滑 假 
设 的 正则 化 子 (Perrone 1993 ) 。 我 们 在 图 4-5(d) 中 看 到 一 个 例子 ， 其 中 通过 在 具有 大 方差 的 
模型 上 取 平 均 ， 我 们 得 到 了 比 单独 模型 更 好 的 拟 合 。 这 就 是 投票 的 思想 : 我 们 对 具有 高 方差 
低 偏 倚 的 模型 投票 ， 使 得 在 组 合 后 ， 偏 倚 依 然 保 持 很 小 而 通过 取 平 均 则 降低 了 方差 。 即 使 单 
个 模型 是 有 偏 倚 的 ， 方差 的 降低 也 可 能 抵消 偏 倚 并 且 仍 然 可 能 降低 误差 。 


17.5 纠 错 输出 码 


在 纠 错 输 出 码 ( Error- Correcting Output Code, ECOC) 中 (Dietterich 和 Bakiri 1995 ) ， 主 要 
的 分 类 任务 通过 由 基 学 习 器 实现 的 一 组 子 任务 来 定义 。 其 思想 是 : 将 一 个 类 从 其 他 类 区 分 开 
来 的 原始 任务 可 能 是 一 个 困难 的 问题 。 作 为 替代 ， 我 们 可 以 定义 一 组 简单 的 分 类 问题 ， 每 个 
专注 于 原始 任务 的 一 个 方面 ， 并 通过 组 合 这 些 简单 分 类 器 来 得 到 最 终 的 分 类 器 。 

这 时 ， 基 学 习 器 是 输出 为 -LIZ +1 的 二 元 分 类 器 ， 并 且 有 一 个 天 xz 的 编码 矩阵 W, HK íF 
是 关于 工 个 基 学 习 器 d 的 类 的 二 元 编码 。 例 如 ， 如 果 WOT -1, +1, +1, -1), m 
这 意味 如 果 一 个 实例 属于 C, 类 ， 则 该 实例 应 在 di Fld, 上 取 负 值 ， 在 d, Ald, 上 取 正 值 。 类 似 
地 ， 编 码 矩 阵 的 列 定义 了 基 学 习 器 的 任务 。 例 如 ， 如 果 第 三 列 是 [ -1，+1，+1] ， 可 理 
解 为 第 三 个 基 学习 器 d, 的 任务 是 将 属于 C 类 的 实例 与 属于 C 和 C; 类 的 实例 区 分 开 。 这 就 
是 我 们 如 何 构 成 基 学 习 器 的 训练 集 的 方式 。 例 如 ， 在 这 个 例子 中 ， 所 有 标记 为 C, ERC, 类 
的 实例 形成 如 ， 而 标记 为 C 类 的 实例 构成 六 ， 而 对 由 的 训练 应 使 得 当 x' eX 时 输出 + 1， 
当 x' eX; 时 输出 -1。 

这 样 ， 编 码 和 矩阵 使 得 我 们 可 以 用 二 分 问题 (K =2 的 分 类 问题 ) 定 义 多 分 问题 (XK 二 2 的 分 
类 问题 ) ， 并 且 这 是 一 种 适用 于 任意 可 以 实现 二 分 基 学 习 器 的 学 习 算 法 的 方法 ， 例 如 ， 线 性 
或 多 层 感 知 器 ( 单 输出 ) 、 决 策 树 或 初始 定义 用 于 两 类 问题 的 SVM。 
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典型 的 每 类 一 个 判别 式 的 情况 对 应 于 对 角 编 码 和 矩阵 ， 其 中 莹 = 天。 例如， 对 于 天 =4， 我 
们 有 
+1 -1 -1 -1 
-1 +1 -1 -1 
-1 -1 +1 -1 
-1 -1 -1 #1 
这 里 的 问题 是 : 如 果 某 一 个 基 学 习 器 存在 错误 ， 就 会 有 误 分 类 ， 因 为 类 的 码 字 之 间 非 常 
相似 。 因 而 纠 错 码 采用 的 方法 是 使 LK 来 增加 码 字 之 间 的 汉 明 距离 。 一 种 可 能 的 方法 是 类 
逐 对 分 开 ( pairwise separation), HX i<j 有 一 个 不 同 的 基 学 习 器 将 C; 与 C; 分 开 ( 见 10.4 
节 ) 。 在 这 种 情况 下 ， 当 玉 =4 i L=K(K-1)/2, WEEK 
+1 +1 +1 0 0 0 
-1 0 0 +1 +1 0 
0 -1 0 -1 0 +1 
0 0 -1 0 -1 -1 
其 中 的 0 表示 “无 关 ”。 这 就 是 说 ， 训 练 d 来 将 C, 与 C; 分 开 并 且 在 训练 中 不 使 用 属于 其 他 
类 的 实例 。 类 似 地 ， 一 个 实例 属于 C, WRA di = -1 并 且 d, =d; = +1, 并且 我 们 不 考虑 
d,、ds 和 ds 的 值 。 这 种 方法 的 问题 是 上 是 0(K*)。 因 而 ,对 于 比较 大 的 K， 逐 对 分 开 可 能 是 
不 可 行 的 。 
方法 是 预先 设置 L 值 ， 然 后 寻找 W 使 得 以 汉 明 距离 衡量 的 行 间距 离 以 及 列 间距 离 都 尽 
可 能 的 大 。 对 个 类 而 言 ， 存 在 2“-” -1 种 可 能 的 列 ， 即 两 类 问题 。 这 是 因为 天 位 可 写 为 
2° 种 不 同 的 形式 和 补 ( 比如,“0101” 和 “1010”， 从 我 们 的 角度 来 看 ， 二 者 定义 相同 的 判别 
式 ) ,将 所 有 可 能 组 合 除 以 2 然后 减 1， 因 为 全 为 0( 或 1) 的 列 是 无 用 的 。 例 如 ， 当 天 =4 时 ， 
我 们 有 
-1 -1 -1 -1 -1 -1 -1 
-1 -1 -1 +1 +1 +1 +1 


W = 
-1 +1 +1 -1 -1 +1 +1 


+1 -1 +1 -1 +1 -1 +1 
当天 很 大 时 ， 对 于 一 个 给 定 的 工 值 ， 我 们 从 2“-… -1 列 选取 工 列 。 我 们 希望 W 的 这 些 
列 尽 可 能 的 不 相同 ， 以 便 每 个 基 学 习 髓 所 学 习 的 子 任 务 尽 可 能 互 不 相同 。 同 时 ， 我 们 希望 
W 的 行 也 尽 可 能 不 相同 ， 使 得 在 一 个 或 多 个 基 学 习 器 失效 时 可 以 获得 最 大 的 纠 错 。 
ECOC 可 以 投票 方式 来 表述 ， 其 中 W 的 元 素 ww 被 看 作 是 投票 权重 : 
yi = Fn (17.6) 
然后 我 们 选取 具有 最 高 yi 的 类 。 通 过 求 加 权 和 并 选择 最 大 值 (判断 类 别 ) 取代 寻求 一 个 精 
确 的 匹配 使 得 d; 也 不 必 是 二 元 的 ， 而 是 可 取 - 1 到 +1 之 间 的 任意 值 ， 以 软 确定 性 取代 硬 
判决 。 注 意 ， 位 于 0 和 1 之 间 的 pj 值 (例如 后 验 概率 ) 可 以 很 简单 地 被 转换 为 -1 到 +1 间 
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的 dj 值 : 
d; =2p; -1 
式 (17.6) 与 式 (17.2) 的 一 般 投票 模型 的 不 同 在 于 投票 的 权重 对 不 同 的 类 可 以 不 同 ， 即 
以 w BUT w, 并且 wj 二 0 而 wj 为 -1、0 或 +1。 
ECOC 的 一 个 问题 是 : 由 于 编码 矩阵 WW 被 设置 为 先 验 ， 因 此 不 能 保证 由 W 的 列 所 定义 
的 子 任务 一 定 是 简单 的 。Dietterich 和 Bakiri(1995 ) 的 研究 表明 二 分 树 可 能 要 比 多 分 树 大 ， 而 
且 当 使 用 多 层 感知 器 时 ， 后 向 传播 可 能 收敛 较 慢 。 


17.6 $ 


装 袋 (bagging) 是 一 种 投票 方法 ， 其 中 基 学 习 器 通过 在 稍 有 差异 的 训练 集 上 训练 而 有 所 
不 同 。 从 给 定 的 样本 数据 上 产生 工 个 稍稍 不 同 的 样本 集 通过 自助 法 来 完成 ， 其 中 给 定 一 个 大 
小 为 N 的 数据 集 *， 随 机 从 X 中 有 放 回 地 (with replacement) 抽 取 N 个 实例 。 由 于 抽样 是 通过 
有 放 回 方式 完成 的 ， 可 能 某 些 实例 被 多 次 抽取 而 某 些 实例 根本 没有 被 抽 到 。 当 抽取 并 个 样本 
XX(j=1,，…, 27) 后 ， 这 些 样本 集 是 彼此 相似 的 ， 因 为 它们 是 从 相同 的 原始 样本 数据 源 抽 取 
的 ,但 是 源 于 随机 性 而 又 稍 有 不 同 。 基 学 习 避 dj 在 这 工 个 样本 集 的 X; 上 训练 。 

一 个 学 习 算法 是 不 稳定 算法 (unstable algorithm) ， 如 果 训练 集中 很 小 的 变化 会 引起 所 产 
生 学 习 器 很 大 的 差异 ， 即 学 习 算 法 具有 高 方差 。 装 袋 是 自助 聚集 ( bootstrap aggregating) 的 简 
单 说 法 ， 就 是 使 用 自助 法 产生 工 个 训练 集 ， 并 使 用 不 稳定 的 学 习 过 程 训 练 工 个 基 学 习 器 ， 并 
在 检验 时 取 ( 预测 的 ) 平 均值 ( Breiman1996 ) 。 装 袋 可 用 于 分 类 和 回归 。 在 用 于 回归 的 情况 
下 ， 为 了 更 加 鲁 棒 ， 可 以 在 组 合 预测 结果 时 以 中 值 来 取代 平均 值 。 

前 面 ， 我 们 已 经 看 到 ， 仅 当 正 相 关 性 小 时 ， 取 平均 值 才能 降低 方差 ;如 果 算 法 在 相同 数 
据 集 的 再 抽样 版 本 上 多 次 运行 导致 具有 高 正 相 关 性 的 学 习 器 ， 则 该 算法 是 稳定 的 。 

诸如 决策 树 和 多 层 感知 器 这 样 的 算法 是 不 稳定 的 。 最 近邻 算法 是 稳定 的 ， 但 是 精简 的 
最 近邻 算法 是 不 稳定 的 (Alpaydmn1997) 。 如 果 原 始 训练 集 很 大 ， 则 我 们 可 能 希望 使 用 自助 
法 来 从 它 产 生 小 一 些 的 数据 集 (W< VN) ， 否 则 XX 的 自助 副本 将 会 非常 相似 ， 从 而 dj 将 高 
度 相关 。 


17.7 提升 


在 装 往 中 ， 产 生 互 补 的 基 学 习 带 是 靠 运 气 以 及 学 习 方 法 的 不 稳定 性 。 在 提升 中 ， 我 们 通 
过 在 前 一 个 学 习 咒 所 犯 的 错误 上 训练 下 一 个 学 习 器 ， 积 极地 尝试 产生 互补 的 学 习 器 。 原 始 的 
提升 (boosting) 算 法 (Schapire1990 ) 组 合 了 三 个 弱 学 习 器 来 产生 一 个 强 学 习 器 。 所 谓 弱 学 习 器 
(weak learner) 是 误差 概率 小 于 1/2 的 学 习 器 ， 这 使 得 它 对 两 类 问题 比 随机 猜测 要 好 ， 而 强 
学 习 器 (strong learner) 具有 任意 小 的 误差 概率 。 

给 定 一 个 大 训练 集 ， 我 们 随机 地 将 其 划分 为 三 部 分 。 使 用 局 来 训练 d1。 然 后 取 X 并 将 
ERA dio HIE di 误 分 类 的 实例 以 及 在 Xs 中 被 di 正确 分 类 的 一 些 实例 一 起 作为 d, 的 训 
练 集 。 然 后 取 X 并 将 它 馈 入 d, M d,o HEP d, Ald, 输出 不 一 致 的 实例 形成 d 的 训练 集 ， 在 
检验 期 间 ， 给 定 一 个 实例 我 们 首先 将 其 提供 给 d 和 d,; 如 果 二 者 输出 一 致 ， 这 就 作为 输出 
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结果 ， 否 则 d, 的 输出 作为 结果 。Schapire(1990 ) 的 研究 表明 这 个 整体 系统 降低 了 错误 率 ， 并 
且 错 误 率 可 以 通过 递归 地 使 用 这 样 的 系统 (即将 三 个 模型 构成 的 提升 系统 作为 更 高 层 系统 的 
di) 而 任意 降低 。 

尽管 这 种 方法 很 成 功 ， 但 是 提升 方法 的 不 足 之 处 在 于 需要 一 个 非常 大 的 训练 集 。 样 本 需 
要 一 分 为 三 ， 而 且 第 二 和 第 三 个 分 类 器 只 在 由 其 前 的 分 类 器 犯错 的 实例 构成 的 子 集 上 训练 。 
因此 ， 除 非 有 一 个 很 大 的 训练 集 ， 否 则 d, Al d; 将 无 法 拥有 合理 大 小 的 训练 集 。Drucker 等 
(1994) 在 其 提出 的 提升 多 层 感 知 器 中 使 用 了 有 118 000 个 实例 的 数据 集 ， 用 于 光学 手写 数字 
识别 。 

Freund 和 Schapire( 1996) 提出 了 提升 的 一 个 变种 ， 叫 AdaBoost， 是 自 适 应 提升 的 缩写 ， 
其 中 重复 使 用 相同 的 训练 集 因 而 不 要 求 数据 集 很 大 。AdaBoost 还 可 以 组 合 任意 数量 的 基 学 习 
器 ， 不 一 定 是 三 个 。 ~ 

已 经 有 很 多 AdaBoost 的 变种 被 提出 ; 这 里 我 





For AH |a, rla ex, 初始 化 pi =1/N 
们 讨论 原始 的 算法 AdaBoost. M1 ( 见 图 17-2) : 其 For 所 有 的 基 分 类 器 ) =1，.…, L 
思想 是 将 实例 抽取 的 概率 修改 成 误差 的 函数 。 令 按照 概率 pi 随机 地 从 X 抽取 
Pi 表示 实例 对 (x',r') 被 抽取 用 于 训练 第 j 个 基 学 使 用 训练 d; 


Jae. RW, PAM pi = 1AN。 然 后 ， 以 
如 下 方式 添加 新 的 基 学 习 器 : 从 j=1 F, eK 
示 d; 的 错误 率 。AdaBoost 要 求 任意 的 e; < 1/2; 
如 果 不 满足 ， 即 停止 添加 新 的 基 学 习 器 。 注 意 ， 
这 里 的 错误 率 并 非 基 于 原始 问题 ， 而 是 基于 在 第 j 
步 中 使 用 的 数据 集 。 定 义 B,=sj/(1 -sj)<=1, FFA 
HE pa = Bp; WER d; 正确 地 对 x 分 类 ， 否 则 设置 
Pisi =Po BTF pia 应 该 是 概率 ， 所 以 我 们 用 pia 除 
以 之 Pr 对 其 规范 化 ， 使 它们 的 和 为 1。 这 样 做 的 


效果 是 将 被 正确 分 类 的 实例 的 (抽取 ) 概率 降低 ， 而 
将 被 错误 分 类 的 实例 的 概率 提高 。 然 后 ， 根 据 这 些 








For Ala, r), HHE yid (a) 
计算 错误 率 : sj 一 Zp; Ioj A 1) 
If e; >1/2, then Lej-1; Stop 
B;—€;/(1 -£;) 
For 每 个 (x 7) // 如果 正确 ， 则 减低 概率 
If yj =r" then pj, 1 Bjp; else pj, 1p; 
ASIN : 
Zi EPs Pier Pj 7S; 
检验 : 
给 定 x, 计算 dj(x), j=1, …, L 
计算 类 输出 ,i=1，…, K: 


$ {log )a 











修改 后 的 概率 p;,, ， 从 原样 本 中 有 放 回 地 抽取 相同 
大 小 的 样本 集 ， 并 用 于 训练 dj, 。 


图 17-2 AdaBoost 算法 


这 样 做 的 效果 是 使 得 d; ,更 专注 于 被 dj 误 分 类 的 实例 。 这 就 是 为 什么 基 学 习 器 以 简单 而 


不 是 准确 为 原则 选取 ， 否 则 下 一 个 训练 样本 集 将 仅仅 包含 少数 离 群 点 和 噪声 实例 的 多 次 重 
复 。 例 如 ， 对 于 决策 树 ， 使 用 的 是 决策 树桩 ( decision stump)， 一 种 只 有 一 层 或 两 层 的 树 。 
因此 ， 很 明显 它们 是 有 偏 的 但 是 方差 上 的 降低 比较 大 ， 而 且 总 体 误 差 也 会 降低 。 像 线性 判别 
式 这 样 的 算法 本 身 具 有 低 方差 ， 我 们 不 能 通过 AdaBoost 而 获得 更 低 的 方差。 

一 旦 完成 训练 ，AdaBoost 就 采用 投票 方法 。 给 定 一 个 实例 ， 所 有 的 d 决定 其 分 类 ， 而 
后 取 一 个 加 权 的 投票 结果 ， 其 中 权重 与 基 学 习 器 (在 训练 集 上 的 ) 准确 率 成 正比 : wj = log(1/ 
B;) o Freund 和 Schapire(1996 ) 表明 AdaBoost 在 22 个 基准 问题 上 提高 了 准确 率 ， 在 一 个 基准 
问题 上 准确 率 相同 ， 而 在 4 个 基准 问题 上 准确 率 较 差 。 
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Schapire (1998) 认为 AdaBoost 的 成 功 源 于 其 扩展 边缘 (margin) 。 如 果 边 缘 增 加 ， 训 练 
实例 可 以 更 好 的 被 分 隔 而 使 误 分 类 不 易 发 生 。 这 使 得 AdaBoost 的 目标 和 支撑 向 量 机 (参见 13 
章 ) 类 似 。 

在 AdaBoost 中 ， 尽 管 不 同 的 基 学 习 器 使 用 稍 有 差异 的 训练 集 ， 但 是 这 种 差异 和 装 袋 一 
样 是 靠 运气 ， 所 不 同 的 是 它 是 前 一 个 基 学 习 器 的 误差 的 郴 数 。 提 升 针 对 一 个 特定 问题 的 实际 
性 能 显然 依赖 于 数据 和 基 学 习 器 。 为 此 ， 需 要 有 充足 的 训练 数据 ， 并 且 基 学 习 器 应 当 是 弱 的 
但 又 不 是 太 弱 ， 而 且 提 升 对 噪声 和 离 群 点 尤其 敏感 。 

AdaBoost 已 经 被 推广 到 回归 : 由 Avnimelech 和 Intrator( 1997 ) 提出 的 一 种 直截了当 的 方 
法 是 ， 检 查 预 测 误差 是 否 大 于 某 个 阅 值 ， 如 果 是 则 将 其 标记 为 错误 ， 然 后 使 用 正规 的 
AdaBoost。 在 另 一 个 版 本 中 (Drucker1997 ) ， 抽 取 概 率 根 据 误 差 量 进行 修改 ， 使 得 前 一 个 基 
学 习 器 预测 误差 较 大 的 实例 ， 在 下 一 个 基 学 习 器 的 训练 中 有 较 大 的 概率 被 抽取 。 最 后 用 加 权 
平均 或 中 值 来 组 合 这些 基 学 习 器 的 预测 结果 。 


17.8 重 温 混合 专家 模型 


在 投票 中 ， 权 重 w 在 输入 空间 上 是 固定 的 。 在 混合 专家 模型 构架 中 (参见 12. 8 节 ) ， 存 
在 一 个 门 网 络 ， 其 输出 取 作 投票 的 权重 。 因 而 这 一 构架 可 以 被 看 作 是 一 种 投票 方法 ， 其 中 投 
票 依赖 于 输入 ， 而 且 可 能 因 输入 不 同 而 有 所 不 同 。 混 合 专家 模型 使 用 的 竞争 学 习 算 法 局 部 化 
了 基 学 习 器 ， 使 得 每 个 基 学 习 器 变 成 输入 空间 的 一 个 不 同 领域 的 专家 ， 并 且 其 权重 w(x) 在 
其 专长 的 领域 中 接近 于 1。 最 终 的 输出 与 投票 一 样 是 加 权 平 均 


y= Dw(x)d, (17.7) 

不 同 之 处 在 于 基 学 习 器 和 权重 二 者 均 是 输入 的 一 个 函数 ( 见 图 17-3) 。 
Jacobs(1997 ) 显示 在 混合 专家 模型 构架 
中 ， 专 家 是 有 偏 的 ， 但 是 负 相关 的 。 随 着 训练 
的 进行 ， 偏 倚 降 低 而 专家 的 方差 增加 ， 但 与 此 
同时 ， 随 着 专家 局 部 化 于 输入 空间 的 不 同 部 
分 , 它们 的 协 方差 为 负 并 且 越 来 越 小 。 根 据 
式 (17.6) ,这 将 降低 总 体 方 差 ， 进而 降低 误 
差 。 在 12.8 节 ， 我 们 讨论 了 专家 和 门 网 络 均 
为 线性 函数 的 情况 ， 但 是 非 线性 方法 同样 可 以 
用 于 二 者 。 这 将 降低 专家 的 偏 傈 ， 但 是 有 增加 








专家 方差 和 过 分 拟 合 的 风险 。 

在 动态 分 类 器 选择 (dynamical classifier 图 17-3 混合 专家 模型 是 一 种 投票 方法 ， 其 中 ， 
selection) 中， 类 似 于 混合 专家 模型 的 门 网 络 ， 像 由 门 网 络 给 出 的 那样 ， 投 票 是 输入 的 
首先 由 系统 取 检 验 输入 并 评估 基 学 习 器 在 输入 函数 。 组 合 系统 /也 包含 这 种 迭 通 系统 


周围 的 竞争 力 。 然 后 ， 它 挑选 最 有 竞争 力 的 基 学 习 器 来 产生 输出 ， 并 将 该 输出 作为 总 体 输出 。 
Woods, Kegelmeyer 和 Bowyer(1977) 找 出 了 检验 输入 的 个 最 近 的 训练 点 ， 考 察 基 分 类 器 在 它 
们 上 的 准确 率 ， 从 中 选择 性 能 最 好 的 一 个 ， 只 需要 用 选 定 的 基 分 类 器 对 该 检验 输入 求 值 。 为 了 
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降低 方差 ， 以 更 多 计算 为 代价 ， 我 们 可 以 取 几 个 竞争 的 基 分 类 器 的 投票 ， 而 不 是 只 用 一 个 。 

注意 ， 在 这 种 模式 下 ， 需 要 确保 对 于 输入 空间 的 任何 区 域 都 存在 一 个 竞争 的 基 分 类 器 。 
这 意味 着 在 基 分 类 器 之 间 存 在 输入 空间 的 学 习 划 分 。 这 是 混合 专家 模型 一 个 很 好 的 性 质 ， 即 
做 选择 的 选 通 模型 和 它 选 择 的 专家 基 学 习 器 以 耦合 方式 训练 。 这 种 动态 学 习 器 选择 算法 有 一 
个 显而易见 的 回归 版 本 (习题 5) 。 


17.9 BBE 


Æ & 214% ( stacked generalization ) 是 Wolpert (1992) 提出 的 一 种 扩展 的 投票 方法 ， 其 中 基 
学 习 器 的 输出 组 合 方式 不 必 是 线性 的 ， 而 是 通过 一 个 组 合 器 系统 所 | 中) 。 组 合 器 是 另 一 
学 习 器 ， 其 参数 O 也 要 训练 (参见 图 17-4) : 

y = f(d, ,d,,--+,d, | ®) (17.8) 

当 基 学 习 器 给 出 某 种 输出 组 合 时 ， 组 合 器 学 习 什么 是 
正确 的 输出 。 我 们 不 能 在 训练 数据 上 训练 组 合 器 函数 ， 因 
为 基 学 习 器 可 能 在 记忆 训练 数据 ; 组 合 咒 系统 应 当真 正 的 
学 习 基 学 习 顺 是 如 何 犯错 (产生 误差 ) 的 。 因 此 组 合 器 应 当 
在 基 学 习 器 训练 时 没有 出 现 的 数据 上 训练 。 

MRC lw, e, w) ERR, HARA w, 50, 
È w=1， 则 最 佳 权重 可 通过 受 约束 的 回归 来 获得 。 但 是 另 一 个 学 习 器 ， 并 且 不 必 
请 注意 ， 对 组 合 器 函数 没有 限制 ， 并 且 不 像 投票 ， 组 合 可 像 投票 一 样 是 线性 的 
以 是 非 线性 的 。 例 如 , SC) 可 以 是 一 个 多 层 感知 器 ， 四 是 其 连接 权重 。 基 学 习 器 dj 的 输出 定 
义 了 一 个 新 的 荆 维 空间 ， 在 该 空间 组 合 器 函数 学 习 输 出 的 判别 式 / 回 归 函 数 。 

在 层 肆 泛 化 中 ， 我 们 希望 基 学 习 器 尽 可 能 不 同 ， 使 得 它们 可 以 相互 补充 。 为 此 ， 最 好 每 
个 基 学 习 顺 都 基于 不 同 的 学 习 算 法 。 如 果 我 们 组 合 可 以 产生 连续 输出 (如 后 验 概率 ) 分 类 器 ， 
则 最 好 是 组 合 这 些 连续 输出 ， 而 不 是 组 合 硬 决策 。 

当 我 们 将 一 个 训练 过 的 组 合 器 (如 层 琶 中 的 组 合 器 ) 与 诸如 投票 中 的 固定 规则 进行 比较 
时 ， 我 们 看 到 二 者 都 有 各 自 的 优点 : 训练 过 的 规则 更 灵活 并 且 可 能 具有 更 小 的 偏 傈 ， 但 是 它 
增加 了 额外 的 参数 ， 有 引入 方差 的 风险 ， 并且 需要 更 多 的 时 间 和 数据 进行 训练 。 还 要 注意 ， 
在 进行 层 琶 之 前 ， 不 必 对 分 类 器 的 输出 规范 化 。 


17.10 HR ZRA 


模型 组 合并 非 总 是 能 保证 降低 误差 的 神奇 方法 ; 基 学 习 器 应 该 是 有 差异 的 和 准确 的 ， 即 
它们 应 该 提供 有 用 的 信息 。 如 果 一 个 基 学 习 器 不 能 提高 准确 率 ， 则 可 以 丢弃 它 。 此 外 ， 如 果 
两 个 基 学 习 器 是 高 度 相 关 的 ， 则 其 中 一 个 不 需要 。 注 意 ， 一 个 不 准确 的 学 习 器 也 可 能 使 准确 
率 恶 化 ; 例如 ， 多 数 表决 假定 超过 一 半 的 分 类 器 对 一 个 输入 是 准确 的 。 因 此 ， 给 定 一 组 候选 
基 学 习 器 ， 那 么 使 用 所 有 的 基 学 习 器 可 能 不 是 一 个 好 主意 ， 而 选择 一 个 子 集 可 能 更 好 。 这 意 
味 着 选择 子 集 不 仅 降低 了 复杂 性 ， 而 且 也 能 提高 准确 率 。 

从 基 学 习 融 的 系 综 中 选择 一 个 子 集 类 似 于 输入 特征 选择 ， 并 且 系 综 选 择 (ensemble selec- 





图 17-4 在 层 释 泛 化 中 ， 组 合 器 是 
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tion) 的 方法 可 能 也 与 特征 选择 相同 。 我 们 可 以 用 向 前 / 增 量 / 增 长 方法 ， 即 每 次 迭代 ， 从 候 
选 基 学 习 器 的 集合 中 选择 一 个 最 能 提高 准确 率 的 基 学 习 帘 ， 添 加 到 系 综 中 。 我 们 可 以 用 向 
后 / 减 量 / 前 枝 方 法 ， 在 每 次 迭代 中 从 系 综 中 删除 一 个 因为 其 缺失 而 能 够 最 大 提高 性 能 的 基 学 
习 器 。 或 者 ， 我 们 可 以 使 用 浮动 方法 ， 添 加 和 移 去 。 组 合 策 略 可 以 是 固定 的 规则 ， 如 投票 ， 
也 可 以 是 训练 的 层 琶 。 这 种 选择 将 排除 不 准确 的 学 习 带 ， 排 除 那些 差异 性 不 够 或 相关 的 学 习 
器 (Caruana 等 2004，Ruta 和 Gabrys 2005 ) 。 不 同 的 学 习 需 可 以 使 用 不 同 的 表示 ， 而 这 种 方 
法 也 可 以 选择 最 佳 的 互补 表示 (Demir 和 Alpaydin 2005 ) 。 

实际 上 ， 正 如 在 层 毒 中 一 样 ， 如 果 我 们 将 组 合 看 作 一 个 取 基 学 习 天 和 输出 为 输入 的 学 习 
器 ， 则 我 们 此 处 的 目标 是 输入 维度 归 约 ， 而 维度 归 约 在 第 6 章 讨 论 过 。 一 种 可 能 的 方法 仍然 
是 特征 选择 ， 丢 弃 那 些 不 提供 信息 的 输入 ， 而 保留 那些 有 用 的 输入 。 在 系 绎 方法 中 ， 正 如 我 
们 前 面 讨 论 的 ， 这 对 应 于 从 基 学 习 器 的 系 综 中 选择 一 个 子 集 。 注 意 ， 如 果 我 们 使 用 决策 树 作 
为 组 合 器 ， 则 它 既 充当 选择 器 ， 又 充当 组 合 器 (Ulas 等 2009 ) 。 

第 二 种 可 能 的 方法 是 特征 提取 ， 其 目的 是 从 基 学 习 器 的 输出 空间 到 较 低 维 的 空间 ， 在 低 
维 空间 我 们 删除 不 必要 的 输入 ， 并 且 也 消除 相关 性 。Merz(1999 ) 提 出 了 SCANN 算法 ， 即 在 
基 分 类 器 的 输出 上 使 用 对 应 分 析 ( 主 成 分 分 析 ( 参 见 6.3 节 ) 的 一 种 变形 ) ， 并 使 用 最 近 均 值 
分 类 器 组 合 它 们 。 实 际 上 ， 我 们 在 第 6 章 讨 论 的 任意 线性 或 非 线 性 特征 提取 方法 都 可 以 使 
用 ,并 且 它 的 (最 好 是 连续 的 ) 输 出 可 以 提供 给 任意 学 习 涡 。 因 此 ， 利 用 每 个 K 个 输出 的 L 
个 学 习 器 ， 我 们 由 天 ' 工 维 空间 上 映射 到 较 低 维 的 新 空间 ， 这 些 " 特征 学 习 吉 "的 不 相关 空间 ， 
在 这 个 空间 我 们 训练 组 合 器 (使 用 训练 基 学 习 器 和 维 归 约 时 未 使 用 的 独立 数据 集 ) 。 

不 是 彻底 地 丢弃 或 保留 系 综 的 一 个 子 集 ， 这 种 方法 使 用 所 有 的 基 学 习 占 ， 因 而 使 用 了 所 
有 的 信息 ， 但 并 不 降低 复杂 性 。 


17. 11 级 联 


级 联 分 类 器 的 思想 是 使 用 一 个 基 学 习 器 d, 的 序列 ， 按 照 空 间 和 时 间 复 杂 度 或 它们 使 用 
的 数据 表示 的 代价 对 其 进行 排序 ， 使 得 d ,的 代价 高 于 dj( Kaynak 和 Alpaydın2000) 。 级 联 
(cascading) 是 一 种 多 级 方法 ,并且 只 有 在 所 有 前 驱 学 习 器 d, Ck <j) 都 不 足够 确信 时 才 使 用 
少 ( 见 图 17-5) 。 为 此 ， 与 每 个 学 习 器 相关 联 的 是 一 个 置信 度 由 ， 当 有 w> 0, 时 我 们 说 dj 对 
其 输出 是 确信 的 并 且 其 结果 可 用 ， 其 中 1/AK <6,<0;,,<1 是 置信 度 赣 值 。 在 分 类 中 ， 置 信和 度 
函数 被 设置 为 最 高 的 后 验 : w = maxid;; 这 正 是 用 于 拒绝 的 策略 (3.3 节 )。 

如 果 所 有 前 驱 学 习 器 的 结果 均 不 够 确信 ， 我 们 才 使 用 学 习 器 d: 

y; = d; 如 果 w > 6 HEMT HARKS Aw, <8, (17.9) 

给 定 一 个 训练 集 ， 我 们 从 7 = 1 开始 训练 dj。 然 后 我 们 从 另外 一 个 验证 集中 找 出 所 有 使 
d 不 够 好 (不 确信 ) 的 实例 ， 将 其 组 成 4 ,的 训练 集 。 注 意 ， 和 AdaBoost 不 同 的 是 ， 这 里 我 
们 不 仅 选 取 在 前 一 个 基 学 习 器 上 误 分 类 的 实例 ， 同 时 还 选取 其 不 自信 的 实例 。 这 包括 误 分 类 
的 实例 以 及 后 验 概率 不 足够 高 的 实例 ; 这 些 实例 位 于 边界 的 正确 一 侧 ， 但 是 它们 与 判别 式 之 
间 的 距离 ( 即 边缘 ) 不 足够 大 。 

级 联 的 思想 是 : 在 初期 使 用 简单 的 分 类 器 处 理 大 多 数 实例 ， 而 更 为 复杂 的 分 类 器 仅 用 于 
少数 实例 ， 因 此 并 不 显著 增加 总 体 复 杂 度 。 这 正和 类 似 于 投票 的 多 专家 方法 相反 ， 这 些 方法 
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中 ， 所 有 基 学 习 器 为 每 个 实例 产生 输出 。 如 果 问 题 空间 比较 复杂 ， 几 个 每 一 级 的 复杂 性 递增 
的 基 学 习 器 可 能 级 联 。 为 了 不 增加 基 分 类 器 的 个 数 ， 少 数 没有 被 任何 基 分 类 器 覆盖 的 实例 将 
被 原样 保留 ， 并 通过 一 个 非 参 数 分 类 器 (如 -NN) 来 处 理 。 


y= di 











17-5 ”级 联 是 一 个 多 级 方法 ， 其 中 使 用 一 个 分 类 器 序列 ， 并 且 仅 当前 驱 分 类 器 不 够 好 时 才 使 用 下 一 个 分 类 器 

级 联 的 归纳 偏 倚 是 类 可 以 通过 复杂 度 递增 的 少量 “规则 ”来 解释 ， 并 存在 一 个 没有 被 这 些 
规则 有 覆盖 的 小 的 “异常 "集合 。 这 些 规则 通过 简单 的 基 学 习 器 来 实现 ， 例 如 ， 复 杂 度 递增 的 感知 
器 ， 学 习 在 整个 输入 空间 上 有 效 的 一 般 规则 。 异 常 是 局 部 实例 ， 最 好 由 非 参 数 模 型 处 理 。 

因此 ， 级 联 位 于 参数 和 非 参 数 分 类 两 个 极端 之 间 。 前 者 (例如 线性 模型 ) 寻找 覆盖 所 有 
实例 的 单个 规则 。 而 非 参 数 模型 (如 k- NN) 存 储 所 有 的 实例 而 不 产生 任何 解释 它们 的 简单 规 
则 。 级 联 产生 一 个 (或 多 个 ) 规 则 ， 以 尽 可 能 低 代价 地 解释 大 部 分 实例 ， 并 将 其 余 实例 作为 
异常 存储 。 这 在 很 多 学 习 应 用 中 是 有 道理 的 。 例 如 ， 在 多 数 情况 下 ， 英 语 动词 的 过 去 式 是 在 
其 后 加 “d" 或 “ed”; 但 也 存在 不 规则 动词 并 不 符合 这 一 规则 的 情况 ， 例 如“ go/went” 。 


17. 12 注释 


组 合 学 习 器 的 思想 是 将 复杂 的 任务 划分 为 较 简单 的 子 任务 ， 这 些 子 任务 可 以 由 分 别 训练 
的 基 学习 器 处 理 。 每 个 基 学习 器 有 其 自己 的 子 任务 。 如 果 我 们 用 一 个 大 的 学 习 器 包含 所 有 的 
基 学 习 器 ， 则 会 有 过 分 拟 合 的 风险 。 例 如 ， 考 虑 取 三 个 多 层 感 知 器 上 的 投票 ， 每 个 感知 器 具 
有 一 个 隐藏 层 。 如 果 我 们 用 线性 模型 组 合 其 输出 ， 将 它们 组 合 在 一 起 ， 则 我 们 有 一 个 大 的 、 
具有 两 个 隐藏 层 的 多 层 感 知 器 。 如 果 我 们 用 全 部 样本 来 训练 这 个 大 模型 ， 则 很 可 能 产生 过 分 
拟 合 。 而 当 我 们 分 别 对 三 个 多 层 感 知 器 训练 时 ， 比 如 用 ECOC 、 装 袋 等 ， 就 如 同 为 这 个 大 的 
多 层 感 知 器 的 第 二 层 隐 藏 节点 定义 了 所 需要 的 输出 。 这 就 为 整体 的 学 习 器 应 对 什么 进行 学 习 
附加 了 约束 ， 进 而 简化 了 学 习 任 务 。 

组 合 的 一 个 缺点 是 组 合 系统 不 是 可 解释 的 。 例 如 ， 即 使 决策 树 是 可 解释 的 ， 装 袋 的 或 提 
升 的 决策 树 也 不 是 可 解释 的 。 具 有 权重 如 - 10/7 +1 的 纠 错 码 允许 某 种 形式 的 可 解释 性 。 
Mayoraz 和 Moreira( 1997 ) 讨论 了 用 于 学 习 纠 错 输 出 码 的 递增 方法 ， 其 中 基 学 习 器 在 需要 时 添 
加 。Allwein Schapire 和 Singer(2000) 讨 论 了 将 多 类 目标 问题 用 两 类 目标 问题 编码 的 各 种 方 
Xo Alpaydın 和 Mayoraz( 1999) 考虑 了 ECOC 的 应 用 ， 其 中 对 线性 基 学 习 器 组 合 得 到 非 线性 
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判别 式 ， 他 们 还 提出 了 从 数据 中 学 习 ECOC 矩阵 的 方法 。 

最 早 也 是 最 直观 的 方法 就 是 投票 。Kittler 等 (1998 ) 回顾 了 固定 规则 ， 还 讨论 了 一 种 组 合 多 
种 数据 表示 的 应 用 。 该 任务 是 使 用 三 种 表示 进行 人 脸 识别 : 正面 人 脸 图 像 、 人 脸 轮 廓 图 像 和 声 
音 。 投 票 模型 的 误差 率 低 于 使 用 单一 表示 的 误差 率 。Alimoglu 和 Alapaydin( 1997 ) 给 出 了 另 一 种 
应 用 ， 其 中 为 了 改善 手写 数字 的 识别 ， 对 两 种 信息 源 进 行 了 组 合 : 一 种 是 数字 在 触摸 书写 板书 
写 时 的 笔 移动 时 态 数据 ， 另 一 种 是 数字 书写 后 的 静态 二 维 位 图 图 像 。 在 这 个 应 用 中 ， 使 用 其 中 
一 种 数据 表示 的 两 个 分 类 器 误差 率 约 为 5% ， 但 是 通过 组 合 误差 率 降 至 3% 。 应 用 研究 还 表明 
关键 在 于 设计 互补 的 学 习 器 和 /或 数据 表示 ， 学 习 器 的 组 合 方式 并 非 是 至 关 重 要 的 。 

组 合 不 同 模 态 广泛 用 于 生物 测定 学 ， 这 个 学 科 的 目标 是 使 用 指纹 、 签 名 、 面 部 等 不 同 的 
输入 源 进 行 身 份 认证 。 在 这 种 情况 下 ， 不 同 的 分 类 器 分 别 使 用 不 同 的 模 态 ， 而 它们 的 预测 被 
组 合 ， 这 提高 了 准确 率 并 使 得 欺骗 更 困难 。 

当 我 们 有 来 自 不 同 表示 或 模 态 的 不 同 数据 源 时 ，Noble(2004) 区 分 了 三 种 类 型 的 组 合 策略 : 

= 在 早期 集成 (early integration) 中 ， 所 有 这 些 输入 都 串 接 起 来 ， 形 成 一 个 向 量 ， 然 后 提 

供给 一 个 分 类 器 。 前 面 我 们 讨论 过 为 什么 这 不 是 一 个 很 好 的 主意 。 

= 后 期 集成 (late integration ) 是 本 章 提倡 的 ; 在 后 期 集成 中 ,不同 的 输入 提供 给 单独 的 

分 类 器 ， 然 后 通过 投票 、 层 秋 或 我 们 讨论 过 的 任何 方法 组 合 它 们 的 输出 。 

a 我 们 在 第 13 章 讨 论 的 核算 法 容许 一 种 不 同 的 集成 方法 ，Noble(2004 ) 称 其 为 中 期 
集成 (intermediate integration) ， 因 为 它 介 于 早期 集成 与 后 期 集成 之 间 。 这 是 一 种 多 
核 学习 ( multiple kernel learning) 方 法 (参见 13.8 节 ) ， 其 中 只 有 一 个 核 机 器 分 类 
器 ， 它 对 不 同 的 输入 使 用 多 个 核 函 数 ， 并 且 组 合 不 像 前 期 集成 那样 在 输入 空间 进 
行 ， 也 不 像 后 期 集成 那样 在 决策 空间 中 进行 ， 而 是 在 定义 核 函 数 的 基 添 数 空间 中 
进行 。 对 于 不 同 的 源 ， 存 在 由 其 核 函 数 计算 的 不 同 的 相似 性 概念 ， 而 分 类 器 累积 
并 使 用 它们 。 

Jacobs(1995 ) 表 明 工 个 依赖 的 专家 和 工 个 独立 的 专家 同样 有 价值 ， 其 中 LL'<L。 在 某 些 
环境 下 ， 投 票 模型 与 贝 叶 斯 技术 产生 相同 的 结果 (Jacobs1995 ) 。 式 (17. 3 ) 的 先 验 概 率 因而 可 
以 由 超 参数 的 分 布 来 建 模 ， 并 在 理想 情况 下 ， 应 在 整个 模型 参数 空间 进行 集成 。 这 种 方法 在 
实际 中 并 非 总 是 可 行 的 ， 并 且 需 要 求助 于 近似 或 抽样 。 随 着 贝 叶 斯 统计 的 进展 ， 这 些 超 贝 叶 
斯 技术 可 能 会 在 不 远 的 将 来 变 得 越 来 越 重要 。 

自 20 世纪 90 年 代 初 以 来 ， 组 合 多 学 习 器 就 已 经 成 为 机 器 学 习 领 域 中 的 一 个 流行 课题 ， 
从 那 时 起 研究 一 直 在 进行 。Kuncheva( 2004) 讨论 了 分 类 器 组 合 的 方方面面 ; 该 书 还 包含 讨 
论 多 个 聚 类 结果 的 组 合 的 章节 。 

AdaBoost 提升 的 决策 树 被 认为 是 最 好 的 机 器 学 习 算 法 之 一 。 同 时 还 存在 AdaBoost 的 其 他 
版 本 ， 其 中 下 一 个 基 学 习 器 在 前 一 个 学 习 器 的 残余 之 上 进行 训练 ( Hastie Tibshirani 和 Fried- 
man，2001) 。 最 近 ， 人 们 注意 到 系 综 并 非 总 能 提高 准确 率 ， 并 且 研 究 者 们 开始 关注 好 的 系 综 的 
标准 ， 以 及 如 何 得 到 好 的 系 综 。 关 于 系 综 中 差异 性 的 作用 的 综述 在 Kuncheva 2005 中 。 


17.13 “习题 
1. 如 果 每 个 基 学 习 器 是 独立 同 分 布 的 并 且 正 确 的 概率 P> 1/2， 那 么 也 个 分 类 器 上 的 一 个 多 数 
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表决 给 出 正确 答案 的 概率 是 什么 ? 


. 在 装 袋 中 ， 为 了 产生 了 个 训练 集 ， 以 工 折 交叉 确认 来 奉 代 自 助 法 的 效果 如 何 ? 
. 提出 一 个 学 习 纠 错 输出 码 的 增 量 算法 ， 其 中 新 的 二 类 问题 在 需要 时 添加 ， 以 便 更 好 地 解 


决 多 类 问题 。 


. 在 混合 专家 模型 中 ， 我 们 可 以 让 不 同 的 专家 使 用 不 同 的 输入 表示 。 在 这 种 情况 下 ， 如 何 


设计 门 网 络 ? 


. 提出 一 种 动态 回归 器 选择 算法 。 

. 使 用 线性 感知 器 作为 组 合 器 函数 的 话 ， 投 票 和 层 伙 的 区 别 是 什么 ? 

. 在 级 联 中 ， 为 什么 要 求 0,,1 20,7 

. 为 了 能 够 对 回归 使 用 级 联 ， 在 检验 时 ， 回 归 器 应 该 能 够 表示 对 其 输出 是 否 有 把 握 。 如 何 


实现 这 一 点 ? 
如 何 组 合 多 个 聚 类 解 的 结果 ? 


10. 在 17. 10 节 ， 我们 讨论 过 如 果 使 用 决策 树 作为 层 释 中 的 组 合 器 ， 则 决策 树 充 当选 择 咒 和 


组 合 器 。 还 有 什么 其 他 优点 和 缺点 ? 
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在 增强 学 习 中 ， 学 习 器 是 一 个 制定 决策 的 智能 主体 。 智 能 主体 在 其 所 处 的 环境 中 执行 一 
些 动作 并 根据 其 试图 解决 一 个 问题 所 执行 的 动作 而 获得 奖励 (或 惩罚 ) 。 经 过 反复 尝试 运行 ， 
学 习 程序 应 当 可 以 学 习 得 到 最 优 策 略 ， 即 一 个 最 大 化 总 体 奖 励 的 动作 序列 。 


18.1 引言 


假设 我 们 要 构建 一 个 学 习 下 国际 象棋 的 机 器 。 在 这 种 情况 下 ， 我 们 不 能 使 用 监督 学 习 ， 
原因 有 二 : 首先 ， 请 一 位 国际 象棋 老师 带领 我 们 遍历 许多 棋局 并 告诉 我 们 每 个 位 置 的 最 佳 棋 
步 的 代价 非常 昂贵 ; 其次， 在 很 多 情况 下 ， 根 本 就 没有 最 佳 棋 步 ， 一 个 棋 步 的 好 坏 依 赖 于 其 
后 的 多 个 棋 步 。 单 一 的 棋 步 并 不 算数 ; 而 如 果 经 过 一 个 棋 步 序列 我 们 赢得 了 比赛 ， 则 该 棋 步 
序列 才 是 好 的 。 而 整个 过 程 唯一 的 反馈 是 在 最 后 我 们 赢得 或 是 输 掉 棋局 时 才 产 生 。 

另 一 个 例子 是 置 于 迷宫 中 的 机 器 人 。 机 器 人 按照 四 个 罗盘 方向 之 一 进行 移动 ， 并 进行 一 
系列 的 移动 到 达 迷 宣 出 口 。 只 要 机 器 人 在 迷宫 中 ， 就 不 存在 反馈 ， 并 且 机 器 人 尝试 各 种 移 
动 ， 直 至 到 达 出 口 ， 只 有 这 时 它 才 得 到 一 个 奖励 。 在 这 种 情况 下 ， 机 器 人 不 存在 对 手 ， 但 是 
我 们 可 能 更 偏好 更 短 的 (到 达 出 口 ) 的 路 径 ， 这 意味 着 我 们 是 在 和 时 间 比 赛 。 

这 两 个 应 用 有 多 个 共同 点 : 存在 一 个 称 为 智能 主体 (agent) 的 决策 者 ， 并 置 其 于 某 一 环 
境 (environment) 中 ( 见 图 18-1) 。 在 国际 象棋 的 例子 中 ， 棋 手 是 决策 者 而 环境 是 棋盘 ; 在 第 
二 个 例子 中 ， 迷 富 是 机 器 人 的 环境 。 在 任何 时 候 ， 环 境 总 是 处 于 某 种 状态 (state) ， 该 状态 来 
自 于 一 组 可 能 的 状态 之 一 ， 例 如 ， 棋 盘 的 布局 状态 ， 机 器 人 在 迷宫 中 的 位 置 。 决 策 者 可 以 做 
一 组 可 能 的 动作 : 棋盘 上 棋子 的 合法 移动 ， 机 器 人 沿 着 可 能 的 方向 移动 而 不 会 撞墙 等 。 一 旦 
选择 并 做 了 某 一 动作 ， 状 态 就 随 之 改变 。 问 题 的 解决 需要 执行 一 系列 的 动作 ， 之 后 我 们 才 得 
到 反馈 ,反馈 以 极 少 发 生 的 奖励 (reward) 的 形式 给 出 ， 通 常 只 有 在 完整 的 动作 序列 执行 完毕 
才 发 生 。 奖 励 对 问题 进行 了 定义 ， 同 时 是 构建 一 个 会 学 习 的 (learning) 智 能 主体 所 必需 的 。 
会 学 习 的 智能 主体 学 习 解 决 一 个 问题 的 最 佳 步骤 ， 其 中 “最 佳 " 是 以 获取 最 大 累积 奖励 的 动 
作 序 列 来 量化 。 以 上 就 是 增强 学 习 (reinforcement learning) 的 背景 。 





图 18-1 智能 主体 和 环境 进行 交互 。 在 环境 的 任意 一 个 状态 ， 智 能 
主体 执行 一 个 改变 环境 状态 的 动作 并 获得 一 个 奖励 
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增强 学 习 与 之 前 讨论 的 各 种 学 习 方法 的 不 同 之 处 在 于 以 下 几 个 方面 : 它 称 之 为 "和 批评 
者 一 起 学 习 ”， 而 与 之 前 和 老师 一 起 学 习 的 监督 学 习 方法 相反 。 批 评 者 (critic) 不 同 于 老师 之 
处 在 于 他 并 不 告诉 我 们 做 什么 ， 而 仅仅 告诉 我 们 之 前 所 做 的 怎么 样 ; 批评 者 永远 不 会 提前 提 
供 信息 。 批 评 者 提供 的 反馈 极 少 ， 并 且 当 他 提供 时 ， 也 是 事后 提供 。 这 就 导致 了 信 度 分 配 
(credit assignment) 问题 : 在 执行 若干 动作 并 获得 奖励 后 ， 我 们 希望 对 之 前 所 执行 的 单个 动作 
进行 评估 并 找到 可 以 引领 我 们 赢得 奖励 的 那些 动作 ， 以 便 对 其 记录 并 在 之 后 使 用 。 正 如 我 们 即 
将 看 到 的 ， 一 个 增强 学 习 程序 所 做 的 是 为 中 间 状 态 或 动作 产生 一 个 内 部 值 (internal value) ,来 
表明 这 些 状 态 或 动作 在 引领 我 们 达到 目标 并 获取 真正 的 奖励 方面 有 多 好 。 一 旦 学 习 到 这 样 的 
内 部 奖励 机 制 ， 智 能 主体 就 可 以 只 执行 最 大 化 内 部 奖励 的 局 部 的 动作 。 

问题 的 解决 需要 执行 一 个 动作 序列 ， 而 从 这 一 角度 ， 我 们 可 想到 第 15 章 讨论 的 马尔 可 
夫 模 型 。 事 实 上 ， 我 们 使 用 马尔 可 夫 决 策 过 程 来 对 智能 主体 建 模 。 不 同 之 处 在 于 ， 对 于 马尔 
可 夫 模 型 ， 存 在 一 个 外 部 过 程 来 产生 一 个 我 们 对 其 观测 和 建 模 的 信号 序列 ， 如 语音 。 而 在 增 
强 学 习 中 ,产生 动作 序列 的 是 智能 主体 。 之 前 ， 我 们 还 区 别 可 观测 的 和 隐藏 的 马尔 可 夫 模 
型 ， 分 别 对 应 系统 状态 是 可 观测 的 或 是 隐藏 的 (并 且 也 需要 推断 ) 。 类 似 地 ， 有 时 候 我 们 使 
用 一 个 部 分 可 观测 的 马尔 可 夫 决 策 过 程 来 建 模 ， 其 中 智能 主体 不 是 确切 地 知道 其 所 处 的 状 
态 ， 而 是 需要 通过 使 用 传感器 的 观测 以 某 种 非 确定 性 对 其 进行 推断 。 例 如 ， 机 器 人 在 房间 中 
移动 时 ， 机 器 人 可 能 不 知道 其 在 房间 中 的 确切 位 置 ， 也 不 知道 障碍 物 和 目标 的 确切 位 置 ， 而 
是 通过 一 个 照相 机 提供 的 有 限 图 像 来 做 决策 。 


18.2 单 状态 情况 : K 臂 赌 博 机 问题 


我 们 从 一 个 简单 的 例子 开始 。 天 臂 赌 博 机 是 一 种 假想 的 具有 天 个 手柄 的 老虎 机 。 可 做 的 
动作 是 选择 并 拉 下 其 中 的 一 个 手柄 ， 而 由 此 所 赢 取 的 一 定量 的 钱 就 是 和 这 个 手柄 (动作 ) 相 
关联 的 奖励 。 任 务 是 决定 拉 下 哪个 手柄 ， 以 便 得 到 最 大 奖励 。 这 是 一 个 分 类 问题 ， 其 中 我 们 
选择 天 个 手柄 中 的 一 个 。 如 果 是 监督 学 习 ， 则 老师 会 告诉 我 们 正确 的 类 ， 即 产生 最 大 收益 
的 类 。 而 在 增强 学 习 中 ， 我 们 只 能 尝试 不 同 的 手柄 并 记录 其 中 最 好 的 。 这 是 一 个 简化 的 增强 
学 习 问 题 ， 因 为 只 有 一 个 状态 ， 或 者 说 只 有 一 个 老虎 机 ， 而 我 们 只 需要 确定 所 执行 的 动作 。 
另 一 个 称 其 为 简化 问题 的 原因 是 我 们 在 一 个 动作 之 后 立即 得 到 一 个 奖励 ; 奖励 并 没有 被 延 
迟 ， 因 此 在 动作 之 后 可 以 立即 看 到 其 价值 。 

假设 Q(a) 是 动作 a 的 价值 。 最 初 ， 对 所 有 a 都 有 Q(a) =0。 当 我 们 尝试 执行 动作 a 时 ， 
我 们 获得 一 个 奖励 7, 大 0。 如 果 奖 励 是 确定 性 的 ， 拉 下 手柄 a 我 们 总 是 获得 相同 的 奖励 ra, 
并 且 在 这 种 情况 下 ， 我 们 可 以 简单 地 令 Q(a) =r。。 如 果 我 们 想 充分 利用 已 有 发 现 , 一 旦 我 
们 发 现 一 个 动作 a 具有 Q(ao)>0， 我 们 就 可 以 不 停 地 选择 它 并 在 每 次 拉 下 手柄 时 获得 "。 的 奖 
励 。 然 而 ， 很 可 能 还 存在 另 一 个 具有 更 高 奖励 的 手柄 ， 因 此 我 们 还 需要 进行 探索 。 

我 们 可 以 选择 不 同 的 动作 并 对 所 有 的 a 存储 Q(a)。 只 要 我 们 想 充分 利用 已 有 发 现 ， 我 
们 可 以 选择 具有 最 高 价值 的 动作 ， 即 

选择 a’, wRQ(a"* ) = max Q(a) (18.1) 

如 果 奖励 并 非 确定 的 而 是 随机 的 ， 则 在 选择 相同 的 动作 时 我 们 每 次 获得 不 同 的 奖励 。 奖 

励 量 被 概率 分 布 p(r | 4) 定义 。 在 这 种 情况 下 ， 我 们 定义 Q,(a) 作 为 在 时 刻 t 时 执行 动作 a 的 
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价值 的 估计 。 它 是 在 时 刻 t 之 前 所 有 执行 动作 a 所 获奖 励 的 平均 值 。 一 种 在 线 更 新 方法 可 定 
义 如 下 : 
Qin (a) —Q(a) +nna(a) -Q(a)] (18.2) 

其 中 7,1(a) 是 在 (t+1) 时 刻 执行 动作 a 之 后 所 获得 的 奖励 。 

注意 式 (18.2) 正 是 我 们 在 之 前 章节 中 多 次 使 用 的 delta 规则 (delta rule); 7 是 学 习 因 子 
(为 了 收敛 而 随时 间 逐 渐 降 低 ) ，m ,是 期 望 输出 ， 而 Q.(a) 是 当前 的 预测 。Q, (ca) 是 在 上 +1 
时 刻 的 动作 a 的 期 望 值 ， 并 且 随 着 t 的 增加 收敛 到 p(r | a) 的 均值 。 

完整 的 增强 学 习 问 题 从 以 下 几 个 方面 推广 了 这 种 简单 情况 : 首先 ， 我 们 有 多 个 状态 。 这 
相当 于 同时 存在 具有 多 个 不 同 奖励 概率 p(r|s，wi) 的 老虎 机 ， 而 我 们 需要 对 Q(s:，w) ， 即 
在 状态 s; 时 执行 动作 w 的 价值 进行 学 习 ; 其 次 ， 动 作 不 仅 影 响 获得 的 奖励 而 且 影响 下 一 状 
态 ， 并 且 我 们 从 一 个 状态 转移 到 另 一 个 状态 ; 第 三 ， 奖 励 被 延迟 ， 而 我 们 需要 能 够 从 延迟 的 
奖励 值 估 计 立 即 值 。 


18.3 增强 学 习 基 础 


学 习 的 决策 者 称 为 智能 主体 (agent) 。 智 能 主体 与 环境 (environment ) 之 间 进 行 交 互 。 环 境 
包含 了 除 智 能 主体 之 外 的 所 有 东西 。 智 能 主体 具有 感知 器 ， 用 来 决定 其 所 处 的 状态 (state) 。 
当 智 能 主体 执行 一 个 动作 时 ， 环 境 提 供 一 个 奖励 (reward) 。 时 间 被 离散 化 为 上 =0，1，2，…， 
并 且 s, e S 表示 智能 主体 在 时 刻 上 的 状态 ， 其 中 S 是 所 有 可 能 的 状态 集合 。a, e Als) 表示 智 
能 主体 在 时 刻 上 所 执行 的 动作 ， 其 中 .4(s,) 是 在 状态 s, 时 所 有 可 能 执行 的 动作 集合 。 当 处 于 
状态 s, 的 智能 主体 执行 动作 a 时 ， 时 钟 吐 哄 ， 接 收 到 奖励 ">,, e R， 并 且 智 能 主体 转移 到 下 
一 个 状态 s,,,。 整 个 问题 通过 马尔 可 夫 决 策 过 程 ( Markov decision process, MDP) KEI, X 
励 和 下 一 状态 分 别 采样 于 它们 相应 的 概率 分 布 p(r,,, |s,，a,) 和 P(s,, ls, a) ER, 我 
们 所 具有 的 是 一 个 马尔 可 夫 ( Markov) 系统 ， 其 中 下 一 时 刻 的 状态 和 奖励 仅仅 依赖 于 当前 状 
态 和 动作 。 在 一 些 应 用 中 ， 奖 励 和 下 一 状态 是 确定 的 ， 并 且 对 某 个 状态 和 所 执行 的 动作 ， 存 
在 一 个 可 能 的 奖励 值 和 下 一 状态 。 

依赖 于 应 用 ， 某 一 状态 可 能 被 指定 为 初始 状态 ， 而 在 一 些 应 用 中 ， 也 存在 一 个 停止 搜索 的 
吸收 终止 (目标 ) 状 态 ; 所 有 在 终止 状态 执行 的 动作 都 以 概率 1 将 状态 转移 到 自身 并 且 没 有 任何 
奖励 。 从 初始 状态 到 终止 状态 的 动作 序列 称 为 一 个 片段 (episode) ， 或 一 次 试验 (trial ) 。 

R (policy) m 定义 了 智能 主体 的 行为 并 且 是 从 环境 状态 到 动作 之 间 的 一 个 映射: m: 
3 一 勾 。 策 略 定义 了 在 任意 状态 s, 可 以 执行 的 动作 : a, = 7(s,)。 策 略 m 的 价值 V"(s,) EAR 
As 开始 ， 遵 循 该 策略 的 智能 主体 所 获得 的 期 望 累积 奖励 。 

在 有 限 视野 (finite-horizon ) 或 片段 (episodic ) 模 型 中 ， 智 能 主体 试图 最 大 化 下 了 个 步骤 的 
期 望 奖励 : 


T 
Vs) = Elna tre to trar] = El Er] (18.3) 
i=l 


某 些 任务 是 连续 的 ， 并 且 不 存在 预先 固定 的 关于 片段 的 限制 。 在 无 限 视野 (infinite-hori- 
zon) 模 型 中 ， 不 存在 序列 长 度 的 限制 ， 但 是 未 来 的 奖励 将 被 打折 扣 : 


V"(s,) = E[r,,, + YT 142 + YT + …] = E| Eyra | (18.4) 
i=l 
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其 中 0<y <I 是 折扣 率 (discount rate) ， 保 证 所 返回 的 奖励 是 有 限 的 。 如 果 y =0， 则 只 有 立 
即 的 奖励 算数 。 随 着 y 趋向 于 1， 处 于 未 来 的 奖励 将 更 多 地 被 计算 在 内 ， 而 这 | 我们 说 智能 
主体 变 得 更 有 远见 了 -. y 是 小 于 1 的 ， 因 为 对 于 解决 问题 的 动作 序列 总 是 会 有 一 个 时 间 上 的 
限制 ， 而 且 智 能 主体 也 许 是 一 个 靠 电 池 运 作 的 机 器 人 。 因 此 我 们 喜欢 更 早 获 得 奖励 而 非 更 
晚 ， 因 为 我 们 不 确定 智能 主体 可 以 运行 多 久 。 
对 每 个 策略 r， 存 在 其 价值 "(5,) ， 我 们 想 要 找到 最 优 策略 (optimal policy) "使 得 
V*(s,) = maxV"(s,), Ws, (18.5) 
在 某 些 应 用 中 ， 例 如 在 控制 中 ， 我 们 更 希望 处 理 成 对 的 状态 - FERC, a), WA 
是 简单 的 状态 值 VY(s,)。V(s,) 表 示 智 能 主体 处 于 状态 s, WME, mC, a) 表示 当 处 于 状 
A s, 时 执行 动作 a, 的 价值 。 我 们 定义 Q* (s,，a) 为 处 于 s, 状态 时 执行 动作 a, 并 在 其 后 遵循 
最 优 策 略 的 期 望 累积 奖励 。 状 态 的 价值 等 于 其 上 可 采取 的 最 优 动作 的 价值 : 
V"(s,) = max Q*(s,,a,) 


maxE | > yT ] 
a izi 


i-l 
> maxE ES + yY’ y Tisis] | 
t i=l 


= maxE[ r, + yV" Csu) ] 


j 


V"(s,) = max uae + YL PCa |s,,@,)V* (s,,,) ) (18.6) 
对 于 每 一 个 可 能 的 下 一 状态 s,,， 我 们 以 概率 P(s,,1 |s,，a,) 转 移 到 s,,, 并 自 此 遵循 最 优 
策略 ， 所 得 的 期 望 累积 奖励 是 V"(s,,, )。 我 们 在 所 有 可 能 的 下 一 状态 上 求 和 和 和， 并且 打 折扣 ， 
因为 它 晚 一 个 时 间 步 。 加 上 立即 期 望 奖 励 ， 我 们 得 到 动作 a, 的 总 体 期 望 累积 奖励 。 最 后 我 
们 选择 所 有 动作 中 最 好 的 一 个 。 式 (18.6) 称 为 Bellman 公式 (Bellman's equation ) ( Bellman 
1957 ) 。 类 似 地 ， 我 们 还 可 以 有 
Q*(s,,4,) = E[r,,,] +y SM pls, | s,,a,) mar 人 OSi 94a.) (18.7) 
一 旦 获得 了 Q"(s,，a,) 的 值 ， 我 们 就 可 以 定义 策略 为 执行 动作 a ， 它 在 所 有 Q&* (s,, a) 
中 具有 最 大 值 : 
aw’ (s,) :选择 a ,其 中 Q*(s,,a, ) = max Q*(s,,a,) (18.8) 
这 意味 着 只 要 我 们 获得 所 有 Q*(s,，a, ) 的 值 ， 那 么 在 每 个 局 部 步 台 中 使 用 贪心 搜索 ， 我 
们 就 可 以 得 到 一 个 最 优 的 步骤 序列 ， 该 序列 最 大 化 累积 (cumulative ) 奖励 。 
18.4 基于 模型 的 学 习 


我 们 从 基于 模型 的 学 习 开 始 ， 其 中 我 们 完全 知晓 环境 模型 的 参数 pP(r | s,, a) 和 
P(s ls，w)。 在 这 种 情况 下 ， 我 们 不 要 进行 任何 探索 就 可 以 使 用 动态 规划 直接 对 最 优 价 
值 隆 数 和 策略 求解 。 最 优 价值 函数 是 唯一 的 ， 即 为 式 (18.6) 的 解 。 一 旦 获得 了 最 优 价值 了 
数 ， 最 优 策略 即 为 选择 最 大 化 下 一 状态 价值 的 动作 : 
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w (s,) = arg max ( E[ r,. |s,,a,] +y > P(s sa)T"(s) ) (18.9) 
人 s1 ES 


18.4.1 价值 迭代 


为 了 找到 最 优 策略 ， 可 以 使 用 最 优 价值 函数 ， 并 且 存 在 一 个 称 为 价值 迭代 (value itera- 
tion) 的 迭代 算法 ， 业 已 证 明 它 收敛 于 正确 的 广 值 。 价 值 欠 代 算法 的 伪 代 码 在 图 18-2 中 。 
7 





将 V(s) 初 始 化 为 任意 值 
Repeat 
For 所 有 的 seS 
For FAW acA 
Q(s, a)<E[r |s, a] +y 及 P(s' |s, a) V(s') 


V(s)+-max, Q(s, a) 
Until V(s) Wa 














图 18-2 基于 模型 学 习 的 价值 迭代 算法 


我 们 说 价值 兴 代 是 收敛 的 ， 条 件 为 两 次 迭代 之 间 的 最 大 价值 差 小 于 某 个 闪 值 5: 
max | VOM (s) -VP (s)| <6 
其 中 是 迭代 计数 。 由 于 我 们 只 关心 具有 最 大 价值 的 动作 ， 因 此 有 可 能 在 价值 收敛 于 最 优 价 
值 之 前 策略 就 收敛 于 最 优 策 略 。 每 次 迭代 的 复杂 度 是 O( | $ | |All), 但 是 下 一 个 可 能 状态 
数目 上 一 | $ | 很 小 ， 因 此 复杂 度 降低 到 oO(k|5| al). 


18.4.2 策略 迭代 


在 策略 迭代 中 ,我们 直接 存储 和 更 新 策略 ， 而 非 间 接地 通过 价值 迭代 寻求 最 优 策略 。 
图 18-3 给 出 了 其 伪 代 码 。 其 思想 是 从 一 个 策略 开始 ， 不 断 的 改进 它 直到 没有 改变 为 止 。 价 
值 函 数 可 通过 求解 线性 方程 来 计算 。 然 后 检验 是 否 可 以 通过 将 这 些 解 考 虑 在 内 而 改进 策略 。 
这 一 步 又 保证 了 对 策略 的 改进 ， 并 且 当 不 再 可 能 继续 改进 时 ， 可 以 确保 所 得 策略 是 最 优 的 。 
该 算法 每 次 迭代 的 时 间 复 杂 度 是 9( | ALI S|? + |S 1 )， 比 价值 迭代 的 复杂 度 高 ， 但 是 策 
略 迭 代 比 价值 迭代 需要 更 少 的 迭代 次 数 。 


任意 初始 化 一 个 策略 or" 
Repeat 





TT 

通过 解 线性 方程 组 ， 计 算 使 用 的 价值 

VCs) =E[r|s, mw(s)] +y X PE |s, ws) VCs!) 
ses 

在 每 个 状态 上 改进 策略 

m'(s)—argmax, (E[r |s, a] v9 De P(s' |s, a@)V"(s")) 





Until m =’ 








图 18-3 基于 模型 学 习 的 策略 迭代 算法 
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18.5 时间差 分 学 习 


模型 通过 奖励 和 下 一 状态 概率 分 布 来 定义 ， 而 且 从 18.4 节 可 以 看 到 ， 当 这 些 值 均 已 知 
时 ， 可 以 使 用 动态 规划 来 求解 最 佳 策 略 。 然 而 ， 这 些 方法 代价 很 高 ， 并 且 我 们 很 少 具 有 如 此 
完全 的 关于 环境 的 知识 。 增 强 学 习 更 有 趣 和 更 实际 的 应 用 是 当 我 们 并 不 知道 模型 的 时 候 。 这 
时 ， 我 们 需要 对 环境 进行 探索 来 查询 模型 。 我 们 首先 讨论 如 何 进行 探索 ， 而 后 我 们 讨论 在 确 
定 和 非 确 定 情况 下 的 无 模型 学 习 算 法 。 尽 管 我 们 并 不 假定 关于 环境 模型 的 全 部 知识 是 已 知 
的 ,但 是 还 是 要 求 模型 是 固定 的 。 

像 我 们 稍 后 将 要 看 到 的 ， 当 我 们 进行 探索 并 得 以 看 到 下 一 个 状态 的 价值 和 奖励 时 ， 我 们 
利用 这 一 信息 来 更 新 当前 状态 的 价值 。 这 些 算法 称 为 时 间 差 分 (temporal difference) A, Bl 
为 我 们 所 做 的 是 考察 一 个 状态 (或 状态 - 动作 对 ) 的 价值 的 当前 佑 计 值 与 下 一 状态 和 所 得 到 
奖励 的 折扣 值 之 间 的 差 。 


18.5.1 探索 策略 


为 了 对 环境 进行 探索 ， 一 种 可 能 性 是 使 用 e- 贪 心 (greedy) 搜 索 ， 其 中 我 们 以 概率 & 在 所 
有 可 能 的 动作 中 均匀 、 随 机 地 选择 一 个 动作 ， 即 进行 探索 ; 而 以 概率 1 - s 选择 已 知 的 最 好 
动作 ， 即 进行 利用 。 我 们 并 不 想 无 限 地 持续 探索 ， 而 是 一 旦 进行 了 足够 的 探索 就 开始 对 其 利 
用 ; 为 此 ， 我 们 以 一 个 较 大 的 c 值 开 始 ， 并 逐渐 减 小 它 。 我 们 需要 确认 所 采取 的 策略 是 软 
(soft) 策略 ， 也 就 是 说 ， 在 状态 se S 执行 任意 动作 a e 24 的 概率 大 于 0。 
我 们 可 以 根据 概率 进行 选择 ， 使 用 软 最 大 函数 将 价值 转化 为 概率 
P(a|s) = —22 Q(s,a) 


2 P Q(s,b) 


然后 根据 这 些 概 率 对 动作 进行 选择 。 为 了 逐渐 地 从 探索 向 利用 进行 转移 ， 我 们 可 以 使 用 一 个 
“温度 ”变量 7， 并 定义 选择 动作 a 的 概率 为 
Plas) = exp[ Q(s,a)/T] 
2 PL Us,0)/7] 
当 了 很 大 的 时 候 ， 所 有 的 概率 相等 ， 因 而 我 们 进行 的 是 探索 。 而 当 了 很 小 的 时 候 ， 更 好 
的 动作 将 受 青睐 。 因 此 这 时 的 策略 是 以 一 个 大 的 了 值 开 始 并 逐渐 减 小 它 ， 这 称 为 退火 
(annealing) 过 程 ， 在 这 种 情况 下 就 是 在 时 间 上 从 探索 平滑 地 过 渡 到 利用 。 


(18. 10) 





(18. 11) 


18.5.2 ”确定 性 奖励 和 动作 
在 无 模型 学 习 中 ， 我们 首先 讨论 较为 简单 的 确定 性 情况 ， 其 中 对 任意 一 对 状态 - 动作 ， 


只 有 一 个 奖励 和 可 能 的 下 一 状态 。 在 这 种 情况 下 ， 式 (18.7) 简 化 为 
Q(s,,@,) = Ty, + y max Q(s,,,,4,,,) (18. 12) 


ww ai bbt. com 7O00000 


增强 学 习 281 








而 我 们 简单 地 将 其 作为 一 个 赋值 来 更 新 Q(s,，a,) 。 当 在 状态 s, 时 ， 我 们 使 用 之 前 所 见 到 的 
各 种 随机 策略 之 一 选择 一 个 动作 a,， 其 返回 一 个 奖励 ,并 将 状态 转移 到 s, ,1。 然 后 ， 前 一 
动作 的 价值 更 新 为 

Q(s,,4,) na +Y max QU Sit dest) (18. 13) 
其 中 & 之 上 加 帽 表示 该 值 为 估计 值 。Q@(s,， aa) 是 一 个 稍 晚 的 值 ， 因 此 有 更 高 的 概率 是 正 
确 的 。 我 们 以 y 对 其 进行 折扣 并 加 上 立即 奖励 (如 果 有 的 话 ) ， 并 将 此 作为 前 一 个 Q(s ，o, ) 
的 新 估计 。 这 称 为 后 推 (backup) ， 因 为 这 可 以 被 看 作 是 在 下 一 个 时 间 步 又 中 对 一 个 动作 的 
价值 进行 估计 ， 并 “将 其 后 退 " 用 来 修改 一 个 当前 动作 的 价值 估计 。 

目前 ， 我 们 假定 所 有 的 值 4(s，a) 存 储 于 一 张 表 中 ; Ma, REZEK | S| | Al ie 
大 时 如 何 更 为 简洁 地 存储 这 些 信息 。 

最 初 所 有 Q(s,，a,) 都 为 0， 并 且 作 为 试验 片段 的 结果 及 时 更 新 。 假 设 我 们 有 一 个 状态 转 
移 的 序列 ， 并 且 在 每 次 转移 中 ,我们 都 使 用 式 (18. 13) ， 用 当前 状态 - 动作 对 的 Q 值 来 更 新 
前 一 对 状态 -动作 的 Q 值 的 估计 。 在 中 间 状 态 ， 所 有 的 奖励 为 0 从 而 价值 为 0， 因 此 不 进行 
更 新 。 当 到 达 目 标 状态 的 时 候 ， 我 们 得 到 奖励 >， 因 而 可 以 将 前 一 对 状态 -动作 的 Q 值 更 新 
为 yr。 对 于 这 个 之 前 的 状态 -动作 对 ， 由 于 其 立即 奖励 为 0 而 来 自 下 一 对 状态 -动作 对 的 贡 
献 又 因为 晚 一 步 而 以 y 折扣 。 于 是 ， 在 下 一 个 片段 中 ， 如 果 我 们 再 次 到 达 这 个 状态 ， 我 们 将 
其 前 一 状态 更 新 为 yr， 以 此 类 推 。 按 照 这 种 方式 ， 经 过 多 个 片段 之 后 ， 这 一 信息 被 后 推 到 
更 早 的 状态 -动作 对 。 随 着 我 们 寻找 到 具有 更 高 累积 奖励 的 路 径 ， 如 更 短 的 路 径 ，Q 值 不 断 
递增 直到 最 优 值 ， 而 且 这 些 Q 值 绝 不 会 降低 (参见 图 18-4)。 





图 18-4 说 明 Q 值 只 增 不 减 的 例子 。 图 示 是 一 个 确定 的 网 格 世 界 ， 其 中 G 是 目标 状态 并 具有 奖励 
100， 所 有 其 他 立即 奖励 为 0 并 有 Y=0.9。 考 虑 由 星 号 标记 的 转移 的 Q 值 ， 而 且 只 考虑 A 
AB 两 条 路 径 。 假 设 在 看 到 路 径 B 之 前 先 看 到 路 径 4， 则 有 ymax(0，81) =72.9。 如 果 之 
后 又 看 到 了 8， 则 找到 了 更 短 的 路 径 ， 而 Q 的 值 变 为 ymax(100，81) =90。 如 果 路 径 B 在 
4 之 前 被 看 到 ， 则 Q 值 为 ymax(100, 0) =90。 于 是 ， 当 看 到 4 时 ，Q 的 值 不 变 ， 因 为 
ymax(100, 81) =90 


注意 ， 这 里 我 们 并 不 知道 奖励 或 下 一 状态 函数 。 这 些 是 环境 的 一 部 分 ， 就 好 像 是 我 们 在 


探索 的 时 候 对 其 进行 查询 。 我 们 也 不 对 其 进行 建 模 ， 虽 然 有 此 可 能 性 。 我 们 只 是 原样 接受 它 
们 并 通过 估计 的 价值 函数 来 直接 学 习 最 优 策略 。 
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18.5.3 非 确定 性 奖励 和 动作 


如 果 奖 励 和 动作 的 结果 不 是 确定 性 的 ， 则 我 们 有 一 个 奖励 从 中 抽样 的 概率 分 布 pra | s,， 
a,) ， 并 且 存 在 一 个 下 一 状态 所 服从 的 概率 分 布 P(s,,, | s,，a,)。 这 些 概率 分 布 函数 帮助 我 们 
对 环境 中 不 可 控制 的 力量 所 引发 的 非 确定 性 进行 建 模 。 这 些 不 可 控制 的 力量 如 国际 象棋 中 的 
对 手 ， 西 洋 双 陆 棋 中 的 仍 子 ， 或 者 是 我 们 对 系统 知识 的 匮乏 。 例 如 ， 或 许 我 们 有 一 个 不 完美 
的 机 器 人 ， 它 有 时 候 会 无 法 按 预 定 的 方向 前 进而 产生 偏离 ， 或 者 比 期 望 的 距离 走 得 更 近 或 
更 远 。 

在 这 种 情况 下 ， 我 们 有 

Q(s,,a,) = Elr,,, Ley Phe | s,,a,) max Q( sn, da) (18.14) 


在 这 种 情况 下 ， 我 们 不 能 进行 直接 的 赋值 ， 因为 对 于 相同 的 状态 或 动作 ， 我 们 可 能 获得 
不 同 的 奖励 或 者 转移 到 不 同 的 下 一 状态 。 我 们 所 做 的 是 取 移 动 平 均 。 这 称 之 为 CQ 学 习 (QC 
learning) 算法 : 
Q(s,,4, ) «Q(s,,a 1) + NT + y max Q(S,41, Ga) -Q(s,, a a) (18. 15) 
我 们 将 这 些 r, +y maxQ( si a,,1) 值 看 作 每 个 (,， a,) 对 的 实例 的 一 个 样本 ， 并 希望 
Q(s,，a,) 收 敛 到 其 均值 。 与 通常 一 样 ， 为 了 收敛 ,” 的 值 随时 间 递 减 ， 并 且 已 经 证 明 该 算 
法 收敛 于 最 优 的 Q* 值 (Watkins 和 Dayan1992)。Q 学 习 算法 的 伪 代 码 见 图 18-5。 





任意 初始 化 所 有 的 Q&(s，a) 
For 所 有 的 片断 
初始 化 s 
Repeat 
使 用 由 忆 导 出 的 策略 (例如 a- 贪 心 ) 选 择 a 
执行 动作 a， 观 测 r 和 s" 
更 新 Q(s, a): 
Q(s, a) Q(s, a) +n(r+ty max, Q(s’', a’) - Q(s, a)) 
ses! 


Until s 是 终止 状态 











图 18-5 _ Q 学 习 ， 它 是 一 种 离 策略 时 间 差 分 学 习 算 法 

我 们 还 可 以 认为 式 (18. 15) 的 作用 是 减 小 当前 的 Q 值 和 一 个 时 间 步 又 之 后 的 被 后 推 的 估 
计 之 间 的 差 。 这 类 算法 称 为 时 间 差 分 (temporal difference，TD ) 算 法 (Sutton1988 ) 。 

这 是 一 种 离 策略 (off- policy) 方 法 ， 因 为 该 方法 使 用 下 一 个 最 优 动作 的 值 而 不 使 用 策略 。 
在 一 个 在 策略 (on- policy) 方 法 中 ， 策 略 还 用 于 确定 下 一 个 动作 。Q 学 习 的 在 策略 版 本 就 是 
Sarsa 算法 ， 其 伪 代 码 见 图 18-6。 我 们 看 到 ， 在 策略 的 Sarsa 算法 使 用 从 Q 值 推演 出 的 策略 来 
选择 下 一 个 动作 o' ， 并 使 用 该 动作 的 Q 值 来 计算 时 间 差 分 ， 而 不 是 寻找 所 有 可 能 的 下 一 动作 
a' 并 选择 其 中 最 好 的 。 在 策略 方法 估计 一 个 策略 的 价值 并 用 它 来 执行 动作 。 而 在 离 策略 方法 
中 ， 这 些 部 分 都 是 分 离 的 ， 并 且 用 于 产生 行为 的 策略 称 为 行为 (behavior) 策略 。 行 为 策略 事 
实 上 可 能 不 同 于 称 为 估计 (estimation ) 策 略 的 被 评估 和 被 改进 的 策略 。 
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如 果 采 用 CLIE 策略 来 选择 动作 ，Sarsa 算法 以 概率 1 收敛 到 最 优 策略 和 状态 - 动作 值 。 
GLIE( Greedy in Limit with Infinite Exploration, ， 使 用 无 限 探索 的 极限 贪心 ) 策略 是 1) 所 有 状 
AS -动作 对 都 被 无 限 次 访问 ， 并 且 2) 策略 收敛 到 贪心 策略 的 极限 (贪心 策略 是 可 设 定 的 ， 比 
W, EH c- 贪心 策略 时 设 定 =1/t). 

除了 Q(s，a) 之 外 ， 时 间 差 分 相同 的 思想 还 可 以 用 于 学 习 V(s) 值 。TD 学 习 (7D learn- 
ing) (Sutton1988 ) 使 用 如 下 的 更 新 规则 来 更 新 一 个 状态 值 : 
V(s,) —V(s,) + alr + ¥V (5) -= Vs,)] (18. 16) 
上 式 依然 是 一 个 delta 规则 ， 基 中 mr +yV(s,,i) 是 更 好 的 、 后 一 时 刻 的 预测 ， 而 VCs, ) 
是 当前 的 预测 。 它 们 之 间 的 差 即 为 时 间 差 分 ， 而 更 新 是 为 了 减 小 这 个 差 。 更 新 因子 7 逐渐 
减 小 ， 因 而 TD 确保 收敛 到 最 优 值 函数 了 (s)。 





任意 初始 化 所 有 的 Q(s，a) 
For 所 有 的 片段 
初始 化 s 
使 用 由 @ 导 出 的 策略 ( 例如 e- 贪 心 ) 选 择 a 
Repeat 
执行 动作 a， 观 测 As’ 
使 用 由 导出 的 策略 (例如 a- 贪心 ) 选 择 a 
更 新 Q(s,， a): 
Q(s, a)+Q(s, a)+n(r+yQ(s', a’) -Q(s, a)) 
ses’, aca’ 


Until s 是 终止 状态 














图 18-6 Sarsa 算法 ， 它 是 Q 学 习 算法 的 在 策略 版 本 
18. 5.4 资格 迹 


前 述 算法 均 为 单 步 算 法 ， 因 为 时 间 差 分 仅 用 于 更 新 前 一 个 (状态 值 或 状态 -动作 对 的 ) 
值 。 资 格 迹 (eligibility traces) 是 对 以 往 出 现 的 状态 - 动作 对 的 一 个 记录 ， 它 使 得 我 们 可 以 实 
现时 间 信 和 度 分 配 ， 并 且 还 可 以 更 新 以 往 达到 的 状态 - 动作 对 的 值 。 我 们 以 Sarsa 算法 学 习 Q 
值 为 例 来 说 明 这 些 都 是 如 何 完成 的 。 对 其 进行 修改 来 学 习 V 值 是 直截了当 的 。 

为 了 存储 资格 迹 ， 需 要 为 每 个 状态 -动作 对 关联 一 个 附加 的 内 存 变量 e(s，a)， 初始 化 
为 0。 当 状态 -动作 对 (s，a) 被 访问 时 ， 也 就 是 说 在 状态 s 执行 了 动作 a 时 ， 其 资格 被 设置 
为 1; 其 他 所 有 状态 - 动作 对 的 资格 乘 以 YA。0<A<1 是 迹 衰 减 参数 。 

etsa) = f PRES Se HG = a (18. 17) 
yAe,_,(s,a) 否则 

如 果 某 一 状态 - 动作 对 从 未 被 访问 过 ， 则 其 资格 保持 为 0; 如 果 被 访问 过 ， 随 着 时 间 流 

逝 和 其 他 状态 - 动作 对 被 访问 ， 该 状态 的 资格 依赖 于 y ALA 的 值 进行 衰减 ( 见 图 18-7) 。 
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0 人 
0 10 20 30 40 50 60 70 80 90 100 


图 18-7 某 个 值 的 一 个 资格 迹 的 例子 。 访 问 用 星 号 标记 
在 Sarsa 算法 中 ， 在 时 刻 1 的 时 间 误 差 为 : 





6, = Fia + y¥Q(s,.1 50,41) - Q(s,,a,) (18. 18) 
在 具有 资格 迹 的 Sarsa 中 ， 称 之 为 Sarsa( 和 A)， 所 有 的 状态 - 动作 对 按 下 式 更 新 : 
Q(s,a) ~ Q(s,a) + 76,e,(s,a),Vs,a (18. 19) 


上 式 对 所 有 状态 - 动作 对 的 资格 进行 更 新 ， 更 新 依赖 于 其 过 去 出 现 有 多 久 。A 值 定 义 了 
时 间 信 度 : 如 果 A =0， 则 只 进行 单 步 更 新 。 我 们 在 18. 5. 3 节 讨 论 的 算法 就 是 属于 这 类 ， 也 
正 因为 如 此 ， 它 们 被 命名 为 Q(0) 、Sarsa(0) 或 TD(0) 。 随 着 和 趋 近 于 1， 之 前 的 更 多 步骤 被 
更 新 。 当 A =1 的 时 候 ， 所 有 之 前 的 步骤 均 被 更 新 ， 并 且 分 配给 它们 的 信和 度 仅 以 每 步 y 进行 
下 降 。 在 在 线 更 新 中 ， 所 有 的 资格 值 在 每 步 之 后 立即 更 新 ; 而 在 离线 更 新 中 ， 更 新 累积 至 片 
段 结束 进行 单 步 更 新 。 在 线 更 新 花费 更 多 的 时 间 但 是 收敛 得 更 快 。Sarsa (A ) 的 伪 代 码 如 
图 18-8 所 示 。Q(A) 和 TD(A) 算 法 可 类 似 的 得 到 (Sutton 和 Bartol998 ) 。 





任意 初始 化 所 有 的 Q(s, a), e(s, a)0, Vs, a 
For 所 有 的 片段 
初始 化 s 
使 用 由 导出 的 策略 (例如 se- 贪 心 ) 选 择 a 
Repeat 
执行 动作 a 观测 r 和 s 
使 用 由 & 导 出 的 策略 (例如 sa- 贪心 ) 选 择 a 
ber+y Q(s', a’) -Q(s, a) 
e(s, a)l 
For 所 有 的 s，a: 
Q(s, a)+-Q(s, a) +78e(s, a) 
e(s, a)+-yAe(s, a) 
ses’, ae—a' 


Until s 是 终止 状态 








图 18-8 Sarsa( A) BYE 
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18.6 推广 


迄今 为 止 ， 我 们 假定 Q(*，&) 值 (或 者 Y(s) 值 ， 如 果 估 计 的 是 状态 值 ) 存储 在 一 个 查找 表 [461] 


中 ， 而 我 们 之 前 考虑 的 各 种 算法 称 为 表格 (tabular) 算 法 。 这 种 方法 具有 几 个 问题 : 1) 当 状态 个 
数 和 动作 个 数 很 大 时 ， 表 格 的 尺寸 会 变 得 非常 大 ; 2) 状 态 和 动作 可 能 是 连续 的 ， 例如， 将 方向 
盘 以 某 个 角度 进行 调整 ; 而 使 用 表格 ， 将 对 这 些 连 续 值 进行 离散 化 ， 这 可 能 会 导致 误差 ; 3) 当 
搜索 空间 比较 大 的 时 候 ， 可 能 需要 非常 多 的 片段 才能 以 可 接受 的 准确 程度 填 满 表格 的 所 有 项 。 

我 们 可 以 将 上 述 问题 看 作 是 一 个 回归 问题 ， 来 取代 使 用 表格 存储 Q 值 。 这 是 一 个 监督 学 
习 问题 ， 其 中 我 们 定义 一 个 回归 器 Q(s，a 16) ， 将 * Mla 作为 输入 并 通过 参数 向 量 9 进行 参 
数 化 来 学 习 Q 值 。 例 如 ， 这 个 回归 器 可 以 是 一 个 人 工 神经 网 络 ， 以 * 和 a 为 输入 ， 一 个 输出 ， 
并 以 8 为 连接 权重 。 

一 个 好 的 函数 通 近 器 具有 通常 意义 上 的 优势 并 可 以 解决 之 前 讨论 过 的 如 下 问题 : 一 个 好 
的 通 近 可 以 用 一 个 简单 模型 来 实现 ， 而 不 必 显 式 存储 训练 实例 ;可 以 使 用 连续 输入 ; 可 以 推 
广 : 如 果 我 们 知道 相似 的 (s，a) 对 之 间 具 有 相似 的 Q 值 ， 则 我 们 能 够 对 之 前 的 情况 进行 推广 
并 产生 好 的 Q(s，a) 值 ， 即 使 这 一 状态 之 前 从 未 遇 到 过 。 

为 了 可 以 对 回归 器 进行 训练 ， 我 们 需要 一 个 训练 集 。 在 Sarsa(0) 的 情况 下 ， 之 前 我 们 看 
到 ， 我 们 希望 Q(s,，o, ) 的 值 最 好 接近 7,,, +y Q(s,,1，ai41) 的 值 。 这 样 ， 我 们 可 以 形成 一 个 
训练 集 ， 其 中 输入 是 状态 -IEX s, a), MERKA HE ra +yli a) o RAIE 
以 将 均 方 误差 写 为 : 

EXO) = [ro + YQ Si Qe) - Q(s,,a,) ]’ (18. 20) 

可 以 类 似 地 定义 QR(0) 和 TD(0) 的 训练 集 。 对 于 后 者 而 言 ， 我 们 学 习 TY(s) ， 而 要 求 的 输出 
是 mu +yV(s,,1)。 一 旦 准备 好 训练 集 ， 我 们 可 以 使 用 任何 监督 学 习 算 法 在 训练 集 上 进行 学 习 。 

如 果 我 们 使 用 梯度 下 降 方法 ， 像 训练 神经 网 络 那样 ， 参 数 向 量 可 更 新 如 下 : 


AO = alr + ¥ Q(5,,,,4,.,) - Q(s,,a,) ] VO, Qs, ,a,) (18. 21) 
这 是 单 步 更 新 。 而 在 Sarsa( 入) ， 资 格 迹 也 被 计算 在 内 : 
Ab = nô,e, (18. 22) 
其 中 时 间 差 分 误差 是 : 


Ô, = Tn + y Q(S.41 an) - Q(s,,a,) 
并 且 资 格 参 数 向 量 更 新 如 下 : 
e, = yAe,., + V0, Q(s,,a,) (18. 23) 
其 中 e 为 零 向 量 。 在 表格 算法 的 情况 下 ， 会 为 每 对 状态 - 动作 存储 其 资格 ， 因 为 这 些 即 为 
(存储 为 表格 ) 参 数 。 而 在 使 用 估计 子 的 情况 下 ， 资 格 是 和 估计 子 的 参数 相关 联 的 。 我 们 也 
注意 到 这 非常 类 似 于 用 于 稳定 反 向 传播 的 动量 法 (11. 8. 1 节 )。 不 同 之 处 在 于 在 动量 法 中 记 
忆 的 是 先前 的 权重 变化 ， 而 这 里 记忆 的 是 先前 的 梯度 向 量 。 根 据 计 算 Q(s,，a,) 所 使 用 的 模 
型 ， 比 如 神经 网 络 ， 我 们 将 其 梯度 向 量 插入 式 (18. 23). 
理论 上 ,任何 回归 方法 都 可 用 于 训练 Q 函 数 ， 但 是 针对 这 一 特定 任务 还 是 有 若干 要 求 。 
首先 ， 使 用 的 方法 应 可 以 推广 ， 也 就 是 说 ， 我 们 的 确 需要 保证 相似 的 状态 和 动作 具有 相似 的 
Q 值 。 同 时 像 在 其 他 应 用 中 一 样 ， 也 需要 对 s 和 a 有 一 个 好 的 表示 ， 使 得 相似 性 比较 明显 。 
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其 次 ， 增 强 学 习 更 新 以 一 个 接 一 个 的 方式 提供 实例 ， 而 不 是 作为 一 个 整体 的 训练 集 ， 因 而 学 
习 算 法 应 当 有 能 力 进行 单个 更 新 来 对 新 的 实例 进行 学 习 并 且 不 会 忘记 以 前 已 经 学 到 的 东西 。 
例如 ， 只 要 使 用 一 个 很 小 的 学 习 率 ， 一 个 后 向 传播 多 层 感知 器 可 通过 一 个 单独 的 实例 进行 训 
练 。 或 者 ， 可 以 收集 这 些 实例 形成 一 个 训练 集 来 进行 学 习 ， 但 是 这 种 方法 减 慢 了 学 习 速 度 ， 
因为 在 一 个 足够 大 的 样本 集 被 收集 到 之 前 不 会 进行 任何 学 习 。 

由 于 这 些 原因 ， 使 用 局 部 学 习 器 对 Q 值 进行 学 习 似 乎 是 一 个 好 主意 。 在 这 类 方法 中 ， 例 
如 径 向 基 函 数 ， 信 息 被 局 部 化 并 且 当 对 一 个 新 的 实例 进行 学 习 的 时 候 ， 学 习 器 的 一 个 局 部 被 
更 新 ， 而 不 损坏 其 他 部 分 的 信息 。 相 同 的 要 求 也 适用 于 用 V(s, | 9) 估计 状态 值 。 


18.7 部 分 可 观测 状态 
18.7.1 场景 


在 某 些 应 用 中 ， 智 能 主体 并 不 确切 的 知道 系统 状态 。 智 能 主体 配备 以 传感器 ， 传 感 器 返 
回 观测 ( observation) ， 而 智能 主体 使 用 这 些 观 测 对 系统 状态 进行 估计 。 比 如 我 们 有 一 个 在 房 
间 内 导航 的 机 器 人 。 这 个 机 器 人 也 许 并 不 知道 其 在 房间 内 的 确切 位 置 ， 或 还 有 其 他 什么 东西 
在 房间 内 。 机 器 人 可 能 装备 了 一 个 照相 机 ， 使 用 它 来 记录 传 感 观测 。 虽 然 这 样 并 不 能 告诉 机 
器 人 其 确切 的 状态 但 是 可 以 提供 关于 其 可 能 状态 的 提示 信息 。 例 如 ， 这 个 机 器 人 可 能 只 知道 
其 右边 有 一 堵 墙 。 

这 一 场景 类 似 于 一 个 马尔 可 夫 决 策 过 程 ， 不 同 之 处 是 在 执行 动作 w 之后， 新 的 状态 s,,， 
是 未 知 的 ， 但 是 有 一 个 观察 o,,,， 它 是 一 个 关于 s, 和 a, 的 随机 函数 : ploni | s,，a,)。 这 称 
为 部 分 可 观测 马尔 可 夫 决 策 过 程 (partially observable MDP，POMDP) 。 如 果 o,,, =s,,,， 则 
POMDP 简化 为 MDP。 这 就 像 可 观测 的 和 隐 马 尔 可 夫 模 型 之 间 的 差别 ， 而 且 它们 的 求解 
也 类 似 ; 也 就 是 说 ， 我 们 需要 从 观测 来 推断 状态 (或 状态 的 概率 分 布 ) 并 据 此 执行 动作 。 
如 果 智 能 主体 认为 其 处 于 状态 s, 的 概率 为 0.4 而 处 于 状态 s 的 概率 为 0.6， 则 任 一 动 
作 的 值 就 是 0. 4 RAE s, 状态 执行 该 动作 的 值 加 上 0. 6 RAE s, 状态 执行 该 动作 的 值 。 

对 于 观测 而 言 ， 马 尔 可 夫 性 质 并 不 成 立 。 下 一 状态 的 观测 并 不 仅仅 依赖 于 当前 的 动作 和 
观测 。 当 只 存在 有 限 的 观测 的 时 候 ， 两 个 状态 表面 上 看 起 来 可 能 是 一 样 的 ， 但 是 实际 上 却 是 
不 同 的 ， 而 且 如 果 这 两 个 状态 要 求 执 行 不 同 的 动作 ， 那 么 就 会 导致 以 累积 奖励 为 度量 的 性 能 
上 的 损失 。 智 能 主体 应 当 以 某 种 方式 将 过 去 的 轨迹 压缩 到 一 个 当前 的 单一 状态 估计 。 这 些 过 
去 的 观测 还 可 以 通过 将 观测 上 的 一 个 过 去 的 窗口 作为 策略 输入 而 被 计算 在 内 ， 或 者 使 用 递归 
神经 网 络 ( 见 11. 12. 2 节 ) ， 在 不 忘记 过 去 的 观测 的 同时 维持 状态 估计 。 

在 任何 时 候 ， 智 能 主体 都 可 以 对 最 可 能 的 状态 进行 计算 并 执行 相应 的 动作 。 或 者 它 可 以 
执行 动作 来 收集 信息 并 减 小 不 确定 性 ， 例 如 搜索 一 个 地 标 ， 或 停 下 来 询问 方向 等 。 这 意味 着 
信息 价值 (value of information) 的 重要 性 ， 并 且 事 实 上 POMDP 可 以 建 模 为 动态 ( dynamic ) 影 
响 图 ( 见 16. 8 节 )。 智 能 主体 根据 动作 所 提供 的 信息 、 所 产生 的 奖励 大 小 以 及 它们 如 何 改变 
环境 状态 来 选择 动作 。 

为 了 保持 整个 过 程 是 马尔 可 夫 的 ， 智 能 主体 维护 一 个 内 部 的 信任 状态 (belief state) b, 来 
对 其 经 历 进行 总 结 ( 见 图 18-9) 。 智 能 主体 有 一 个 状态 估计 子 (state estimator) ， 它 基于 上 一 
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动作 a,、 当 前 观测 o,,, 和 前 一 信任 状态 b, 来 更 新 信任 状态 b,,,。 管 能 主体 还 有 一 个 策略 or, 
与 完全 可 观测 环境 中 所 使 用 的 真实 状态 相反 ， 策 略 站 基于 这 个 信任 状态 来 产生 下 一 动作 
a,,1。 信任 状态 是 给 定 初始 信任 状态 (在 执行 任何 动作 之 前 ) 的 环境 状态 和 智能 主体 以 往 的 观 
测 -动作 历史 (没有 遗漏 任何 可 能 提高 智能 主体 性 能 的 信息 ) 上 的 概率 分 布 。 在 这 种 情况 下 ， 
Q 学 习 使 用 的 是 信任 状态 - 动作 对 的 值 ， 而 非 实际 的 状态 - 动作 对 的 值 : 

Q(b,,a,) = Elr,,] ty > P(b,,, |b,,a,) V(b a) (18.24) 











图 18-9 ”在 部 分 可 观测 环境 中 ， 智 能 主体 具有 一 个 状态 估计 子 (SE) 对 内 部 
信任 状态 b 进行 维护 并 且 策 略 5 根据 这 些 信 任 状态 产生 动作 


18.7.2 例子 : 老虎 问题 


现在 ， 我 们 讨论 一 个 例子 ， 它 与 Kaelbling 、Littmann 和 Cassandra 1998 讨论 的 ， 并 在 Thrun 、 
Burgard 和 Fox 2005 中 修改 作为 例子 的 老虎 问题 tiger problem) 稍微 有 些 不 同 。 假 设 我 们 正 站 在 两 ”[465] 
扇 门 前 ， 一 扇 门 在 我 们 的 左边 ， 而 另 一 鹿 在 右边 ， 分 别 通 往 两 个 房间 ， 两 局 门 之 一 的 后 面 潜伏 着 
一 只 老虎 ， 而 另 一 鹿 门 后 有 一 笔 财富 。 对 此 ， 我 们 并 不 知晓 。 如 果 我 们 打开 有 老虎 的 门 ， 则 我 们 
得 到 很 大 的 负 奖 励 ， 而 如 果 我 们 打开 有 财富 的 门 ， 则 我 们 得 到 一 些 正 奖励 。 隐 藏 状态 zj 是 老虎 的 
位 置 ， 假 设 表示 老虎 在 左边 房间 的 概率 ， 因 而 老虎 在 右边 房间 的 概率 为 1 -p: 





p = P(z, = 1) 
两 个 动作 是 a, Alan, 2H SOL FFT IA Aw). Re 














r(A, Z) 
打开 左边 的 门 
打开 右边 的 门 





老虎 在 左边 老虎 在 右边 
-100 +80 








+90 -100 


FEAT HT LATTE SOOPER. MEERE AG Ry, PO ERATI] 
中 的 一 扇 ， 场 景 就 结束 了 o 
R(a,) = r(a,, z,)P(z,) +r(a,, zr)Pl(zr) =- 100p + 80(1 - p) 
R( ag) = rag, 2,)P(2,) +r(ar, zr)P(zr) = 90p — 100(1 - p) 
给 定 这 些 奖 励 ， 如 果 p 接近 于 1， 即 如 果 我 们 相信 老虎 在 左边 的 可 能 性 大 ， 则 正确 的 动 
作 是 选择 右边 的 门 。 类 似 地 ， 如 果 p 接近 于 0， 则 最 好 选择 左边 的 门 。 
当 p 在 0.5 附近 时 ， 二 者 交 义 ,并 且 期 望 奖 励 大约 为 -10。 事 实 上 ， 当 p 在 0.5 附近 时 
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( 当 我 们 不 确定 时 ) 期 望 奖励 为 负 ， 表 明了 收集 信息 的 重要 性 。 如 果 我 们 能 够 增加 探测 设备 来 降 
低 不 确定 性 ， 即 如 果 我 们 能 够 把 p 从 0.5 移动 到 0 或 1 附近 ， 则 我 们 可 以 采取 具有 和 较 高 正 奖励 
的 行动 。 检 测 动作 as 可 以 具有 较 小 的 负 奖 励 : R(as) = -1; 这 可 以 看 作 检 测 的 开销 ， 或 看 作 
等 价 于 对 未 来 奖励 按 y <1 打折 扣 ， 因 为 我 们 推迟 了 采取 (打开 一 扇 门 ) 实 际 行动 。 

在 这 种 情况 下 ， 期 望 的 奖励 和 最 佳 动作 的 值 显 示 在 图 18-10(a) 中 : 

V = max(a ,anyas) 

假设 作为 检测 的 输入 ， 我 们 使 用 麦克 风 检 测 老 虎 是 在 左边 还 是 在 右边 门 后 ， 但 是 我 们 只 
有 一 个 不 可 靠 的 传感器 (因此 我 们 仍然 处 在 部 分 可 观测 状态 ) 。 假 设 我 们 只 能 以 0.7 的 概率 
检测 老虎 的 存在 : 

P(o, |z) =0.7 Po; |z,) =0.3 
Pog la) = 0.3 Ploy le) = 0:7 
如 果 我 们 检测 了 o,， 则 我 们 对 老虎 位 置 的 看 法 改变 : 
P(o, |z,)P(z, . 
p" = P(z,|0,) = ron = =o. 7p i - p) 

其 效果 显示 在 图 18-10(b) 中， 在 图 中 我 们 绘制 了 R(a, | 0,)。 检 测 到 o, 使 得 打开 右边 的 门 
在 更 大 的 范围 内 成 为 较 好 的 动作 。 我 们 拥有 的 传感器 越 好 (如 果 正 确 检 测 的 概率 从 0.7 移 近 
1), ， 这 个 范围 就 越 大 (习题 9) 。 类 似 地 ， 正 如 我 们 在 图 18-10(c) 中 看 到 的 ， 如 果 我 们 检测 到 op, 
则 提高 了 打开 左边 门 的 可 能 性 。 注 意 ， 在 需要 (多 次 ) 检 测 的 地 方 ， 检 测 也 可 能 缩小 这 个 范围 。 

在 这 种 情况 下 ， 动 作 的 期 望 奖励 是 

R(a, | 0,) = r(a,,2z,)P(z, |01) + r(a, 29) P(zp | 0,) 
=— 100p’ + 80(1 - p’) 
= - 100 0 4 gp 0341 -P) 
p(o,) p(o,) 
R( a, |0,) = r(ag,z,)P(z, |0,) + r(ap,zp) P( zp | 0,) 
= 90p’ - 100(1 - p') 
0.7 6.301 =p) 
dar ear ose 
R(a; |0,) =-1 

这 种 情况 下 的 最 佳 动作 是 最 大 化 这 三 者 的 动作 。 类 似 地 ， 如 果 我 们 检测 到 os ， 则 期 望 

奖励 变 成 








R(a, | on) = r(a,,2,)P(z, | on) + r(a,,z)P(zz | on) 
£3 atte 
R( ag |0,) = r(ag,2,)P(2, | og) + 1( ag zp) P(zp | og) 
= 90 0. 3p_ = 100 0-21 =p) 
p(oR) plon) 
R(as | og) =-1 
为 了 计算 期 望 奖励 ， 我 们 需要 在 两 个 传感器 读数 上 用 它们 的 概率 取 加 权 平 均 : 


= - 100 
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V' = > [maxR(alo)]P(o) 


= max(R(a, | 0,) Rap | o,) Ras |o,))P(o,) + 
max( R(a, | og) Ra, | on) ,R(as | Or) )P( or) 
=max( — 70p + 24(1 - p) ,63p - 30(1 - p), —0.7p -0.3(1 -p)) + 


max( — 30p + 56(1 - p) ,27p - 70(1 - p), —0.3p -0.7(1 -7p)) 468 
- 100p +80(1 -p) 
SOA — 43p -46(1 -p) (18. 25) 


33p + 26(1 - p) 
90p -100(1 -p) 
注意 ， 当 我 们 乘 以 P(o,) 时 ， 它 被 约 去 ， 而 我 们 得 到 p 的 线性 函数 。 这 五 条 线 和 对 应 于 
它们 的 最 大 值 的 分 段 函 数 显示 在 图 18-10(d) 中 。 注 意 直 线 -40p -5(1 -P) ， 以 及 涉及 as 的 
直线 都 在 其 他 直线 下 方 ， 因 此 可 以 安全 地 删除 。 图 18-10(d) 比 图 18-10(a) 更 好 这 一 事实 表 
明了 信息 的 价值 。 








0.5 
P 
c) 检测 on 后 d) 检测 后 最 优 


图 18-10 老虎 问题 的 期 望 奖励 和 检测 的 效果 


这 里 ， 我 们 要 计算 的 是 选取 as 后 的 最 佳 动作 值 。 例 如 ， 第 一 条 线 对 应 于 选取 as 之 后 选 
择 a,。 因 此 ， 为 了 找到 长 度 为 2 的 片断 的 最 佳 决 策 ， 我 们 需要 通过 减 1 来 实现 ( -1 是 us 的 
奖励 ) ， 并 得 到 检测 动作 的 期 望 奖励 。 等 价 地 ， 我 们 可 以 把 这 看 作 具 有 立即 奖励 0 但 将 未 来 
的 奖励 按 y <1 打折 的 等 待 。 我 们 还 有 两 个 通常 的 动作 a, 和 wan， 并 且 我 们 选择 这 三 个 中 的 最 
佳 的 ;两 个 立即 动作 和 一 个 打折 的 未 来 动作 。 

现在 ， 让 我 们 像 Thrun 、Burgard 和 Fox 2005 的 例子 那样 ， 将 问题 设计 得 更 有 趣 。 我 们 
假设 两 个 房间 之 间 有 一 扇 门 ， 而 我 们 看 不 到 ， 老 虎 可 以 从 一 个 房间 移动 到 另 一 个 。 假 设 这 是 
一 只 好 动 的 老虎 ， 它 待 在 一 个 房间 的 概率 为 0.2， 而 走 到 另 一 个 房间 的 概率 为 0.8。 这 意味 
着 p 也 应 该 更 新 为 

p’ =0.2p +0.8(1 -p) 

并 且 在 选择 as 之 后 选择 最 佳 动作 时 ， 在 式 (18. 25) 中 使 用 这 个 更 新 后 的 p: 
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V’ = max 33p + 26(1 - p) 

90p -100(1 - p) 

图 18-11(b) 对 应 于 使 用 更 新 后 p' 的 图 18-10(d) 。 现 在 ， 当 我 们 规划 长 度 为 2 的 片断 时 ， 有 
两 个 立即 动作 aj Mar, RAH p 改变 时 我 们 等 待 并 检测 ， 然 后 执行 动作 并 得 到 它 的 打折 的 
奖励 (参见 图 18-11b): 





-100p +80(1 >) 


V, = max 90p -100(1 -P) 

maxV’ — 1 
我 们 看 到 图 18-11 (b) 比 图 18-10(a) 好 : 当 错 误 动 作 可 能 导致 大 的 惩罚 时 ， 最 好 推迟 决断 ， 
寻求 附加 信息 ， 并 提前 规划 。 我 们 可 以 通过 以 下 方法 来 考虑 更 长 的 片断 : 继续 p 的 迭代 更 
新 ， 通过 减 1 打折 ， 并 包含 两 个 立即 动作 a, Mar, AI V, 1>2。 


60 





-100p +80(1 | 


40 

















0.5 1 


0 0.5 1 
P P 


a) 老虎 能 够 移动 b) 两 步 的 值 
图 18-11 期 望 奖励 改变 : a) 如 果 隐 藏 状态 可 以 改变 ; b) 考 虑 长 度 为 2 的 片断 


我 们 刚 讨 论 的 值 用 分 段 线性 函数 表示 的 算法 只 能 在 状态 数 、 动 作 数 、 观 测 数 和 片断 长 度 
均 为 有 限时 才能 使 用 。 即 便 在 这 些 值 的 某 个 不 太 小 ， 或 存在 连续 值 的 应 用 中 ， 算 法 的 复杂 度 
都 很 高 ， 因 而 我 们 需要 借助 于 具有 合理 复杂 度 的 近似 算法 ， 这 类 算法 的 综述 在 Hauskrecht 
2000 以 及 Thrun, Burgard 和 Fox 2005 P, 


18.8 注释 


Thrun Burgard 和 Fox 2005 包含 增强 学 习 用 于 机 器 人 的 近期 工作 ， 还 给 出 了 一 些 令 人 印 
象 深刻 的 应 用 。 关 于 增强 学 习 的 更 多 信息 可 以 在 Sutton 和 Barto(1998 ) 的 教科 书 中 找到 ， 该 
书 讨论 了 增强 学 习 的 各 个 方面 、 学 习 算 法 以 及 若干 应 用 。 而 Kaelbling, Littman 和 Moore 
1996 是 增强 学 习 的 全 面 介 绍 。 

Bertsekas 1987 以 及 Bertsekas 和 Tsitsiklis 1996 讨论 了 动态 规划 方法 ， 而 Q 学 习 可 以 看 作 
是 动态 规划 的 随机 近似 (jaakkola 、Jordan 和 Singh 1994) 。 与 经 典 的 动态 规划 相 比 ， 增 强 学 
习 有 两 个 优点 : 首先 ， 在 学 习 期 间 ， 增 强 学 习 可 专注 于 空间 的 重要 部 分 而 忽略 其 他 部 分 ; 其 
次 ， 增 强 学 习 可 以 使 用 函数 逼近 方法 来 表示 知识 ， 进 而 得 以 推广 和 更 快 地 学 习 。 
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一 个 相关 的 领域 是 学 习 自 动机 (learning automata) ( Narendra 和 Thathachar 1974) 它 是 一 个 
有 限 状 态 机 器 ， 通 过 “ 试 错 " 解决 类 似 于 无 臂 赌博 机 问题 。 我 们 这 里 所 讨论 的 场景 同样 也 是 
最 优 控制 的 课题 ， 其 中 一 个 控制 器 (智能 主体 ) 在 设施 (环境 ) 中 执行 动作 来 最 小 化 系统 开销 
〈 最 大 化 奖励 ) 。 

最 早 使 用 时 间 差 分 方法 的 是 Samuel 写 于 1959 年 的 跳棋 游戏 程序 (Sutton 和 Barto 1998 ) 。 
对 于 一 个 游戏 中 每 对 相继 的 位 置 ， 通 过 棋盘 评估 函数 对 两 个 棋盘 状态 进行 评估 ， 进 而 引发 一 
个 更 新 来 减 小 它们 之 间 的 差异 。 关 于 游戏 方面 的 研究 工作 很 多 ， 因 为 其 兼 具 易于 定义 和 挑战 
性 的 特点 。 对 一 个 类 似 象 棋 的 游戏 的 模拟 也 易于 进行 : 允许 的 棋 步 可 以 形式 化 而 且 目 标 状 态 
清晰 。 尽 管 定义 这 样 一 个 游戏 很 简单 ， 但 是 以 专家 级 别 进行 游戏 却 非 常 困难 。 

增强 学 习 最 令 人 印象 深刻 的 应 用 是 TD-Gammon 程序 。 该 程序 通过 和 自身 进行 对 弈 来 学 
习 下 西洋 双 陆 棋 (Tesauro 1995 ) 。 它 优 于 同样 由 Tesauro 开发 的 neruogammon 程序 ， 后 者 基于 
与 专家 对 弈 ， 以 监督 学 习 方式 进行 训练 。 西 洋 双 陆 棋 是 大 约 有 10” 种 状态 的 复杂 任务 ， 并 存 
在 由 于 掷 仍 子 而 产生 的 随机 性 。 使 用 TD(A) 算 法 ，TD- Gammon 程序 在 经 过 和 自身 副本 
1 500 000 次 对 弈 后 达到 了 大 师 级 水 平 。 

另 一 个 有 趣 的 应 用 是 作业 车 间 调度 (job shop scheduling ) 问题 或 寻找 满足 时 间 和 资源 约束 
的 任务 调度 问题 (Zhang 和 Dietterich 1996 ) 。 某 些 任 务必 须 在 其 他 任务 开始 之 前 完成 ， 并 且 
需要 相同 资源 的 两 个 任务 不 能 同时 进行 。Zhang 和 Dietterich 使 用 增强 学 习 很 快 找到 了 满足 约 
束 并 且 较 短 的 调度 方式 。 每 个 状态 是 一 个 调度 ， 而 动作 是 调度 更 改 ， 最 终 程序 找到 的 不 仅 是 
一 个 好 的 调度 ， 而 且 是 对 一 类 相关 调度 问题 均 有 效 的 调度 。 

最 近 提 出 了 层次 化 方法 将 问题 分 解 为 一 组 子 问题 。 其 优点 是 针对 子 问题 学 习 而 得 到 的 策 
略 可 在 多 个 问题 上 共享 ， 这 加 速 了 对 新 间 题 的 学 习 速 度 ( Dietterich 2000) 。 每 个 子 问 题 都 更 
简单 ， 并 且 对 它们 单独 进行 学 习 更 快 一 些 。 缺 点 是 当 对 子 问 题 的 策略 进行 组 合 时 ， 所 得 的 策 
略 可 能 是 次 最 优 的 。 

尽管 增强 学 习 算 法 比 监督 学 习 算 法 慢 一 些 ， 但 很 明显 它们 具有 更 广泛 的 应 用 并 具有 构建 更 好 
学 习 机 器 的 潜力 (Ballard 1997) 。 它 们 不 需要 任何 监督 ， 因 而 可 能 实际 上 更 好 一 些 ， 因 为 不 会 被 老 
师 误 导 。 例 如 ，Tesauro 的 TD- Cammon 程序 在 某 些 情况 下 所 走 的 棋 步 比 最 好 的 棋 手 所 走 的 棋 步 还 
要 好 。 增 强 学 习 领 域 发 展 迅速 ， 因 而 我 们 可 以 期 待 在 不 远 的 将 来 看 到 其 他 引信 注目 的 成 果 。 


18.9 习题 


1. 给 定 图 18-12 的 网 格 世界 ， 如 果 到 达 目 标的 奖励 为 100 并 且 y =0.9, 手工 计 算 Q* (s, a), 
V* (5S) 以 及 最 优 策略 的 动作 。 























图 18-12 网 格 世 界 。 智 能 主体 始 于 5， 可 以 向 四 个 罗盘 方向 移动 。 目 标 状态 为 6 
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2. 以 习题 1 中 相同 的 配置 ， 使 用 Q 学 习 算法 学 习 最 优 策略 。 

3. 在 习题 1 中 ， 如 果 在 右 下 角 加 入 另 一 个 目标 状态 ， 最 优 策略 将 如 何 改变 ?” 如 果 在 右 下 角 
的 状态 定义 奖励 为 - 100( 非 常 坏 的 状态 ) 将 发 生 什么 ? 

4. 作为 对 y <1 WR, Ay =1 并 且 所 有 中 间 状 态 ( 非 目标 ) 具 有 一 个 负 的 奖励 -c。 这 二 者 
有 何 差异 ? 

5. 在 习题 1 中 ,假设 到 达 目 标的 奖励 服从 均值 100 和 方差 40 的 正 态 分 布 。 同 时 假设 动作 也 
是 随机 的 ， 即 当 机 器 人 向 一 个 方向 前 进 的 时 候 ， 它 以 0.5 的 概率 向 预定 的 方向 前 进 同 时 
以 0. 25 的 概率 向 两 个 横向 方向 之 一 前 进 。 在 这 种 情况 下 ， 学 习 Q(s，a) 。 

6. 假设 我 们 想 要 使 用 TD(A ) 算 法 对 状态 值 函 数 V(s) 进 行 估计 。 推 导出 其 表 值 迭 代 更 新 。 

7. 使 用 式 (18. 22) ， 推 导出 使 用 多 层 感知 器 估计 Q 的 权重 更 新 公式 。 

8. 给 出 一 个 可 用 POMDP 建 模 的 增强 学 习 应 用 的 例子 。 定 义 其 中 的 状态 、 动 作 、 观 测 和 

9. 在 老虎 例子 中 ， 说 明 当 我 们 有 更 可 靠 的 检测 设备 时 ， 在 需要 一 再 检测 的 地 方 ， 范 围 将 
减 小 。 

10. 使 用 如 下 奖励 矩阵 重 做 老虎 例子 : 








r(A, Z) 老虎 在 左边 老虎 在 右边 
打开 左边 的 门 -100 +10 
打开 右边 的 门 20 ~100 
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我 们 讨论 评估 和 比较 实际 学 习 算 法 性 能 的 机 器 学 习 实 验 的 设计 ， 并 分 析 这 些 实验 结果 的 
统计 检验 。 


19.1 引言 


在 前 面 的 章节 中 ， 我 们 讨论 了 一 些 学 习 算法 ， 并 且 看 到 对 于 一 个 给 定 的 应 用 ， 多 种 算法 
都 是 可 行 的 。 现 在 ， 我 们 关心 的 是 以 下 两 个 问题 : 

1) 如 何 评估 一 个 学 习 算法 在 给 定 问题 上 的 期 望 误 差 ? 也 就 是 说 ， 例 如 ， 已 经 使 用 分 类 
算法 在 取 自 某 个 应 用 的 数据 集 上 训练 了 一 个 分 类 器 ， 我 们 是 否 能 够 以 足够 的 置信 和 度 认为 在 之 
后 的 实际 应 用 中 ， 其 期 望 误差 率 将 小 于 ， 比 如 2% 2 

2) 给 定 两 个 学 习 算 法 ， 就 给 定 的 应 用 而 言 ， 我 们 能 够 认为 一 个 算法 的 误差 比 另 一 个 低 
吗 ? 进行 比较 的 分 类 算法 可 能 是 不 同 的 ， 例 如 ， 参 数 的 与 非 参数 的 ， 或 者 它们 可 能 使 用 不 同 
的 超 参数 设置 。 例 如 ， 给 定 一 个 具有 4 个 隐藏 单元 的 多 层 感知 器 (参见 第 11 章 ) 和男 一 个 具 
有 8 个 隐藏 单元 的 感知 器 ， 我 们 和 硕 望 可 以 判断 哪 一 个 具有 更 低 的 期 望 误差 ; 或 者 在 使 用 -最 
近邻 分 类 器 (参见 第 8 章 ) 时 ， 我 们 希望 找到 最 佳 的 大 值 。 

我 们 不 能 只 看 训练 集 上 的 误差 并 据 此 来 做 判定 。 根 据 定 义 ， 训 练 集 上 的 误差 率 总 会 小 于 
包含 训练 时 未 见 过 的 实例 的 检验 集 上 的 误差 率 。 类 似 地 ， 训 练 误 差 不 能 用 于 比较 两 个 算法 。 
因为 在 训练 集 上 ， 具 有 更 多 参数 的 复杂 模型 几乎 总 是 比 简单 模型 的 误差 更 小 。 

因此 ， 正 如 我 们 反复 讨论 的 ， 我 们 需要 一 个 不 同 于 训练 集 的 验证 集 ， 并 且 即 使 是 在 验证 
集 上 ， 一 轮 运 行 也 可 能 不 够 。 其 原因 有 二 : 首先 ， 训 练 集 和 验证 集 都 可 能 较 小 并 且 可 能 包含 
异常 实例 ， 如 噪声 或 离 群 点 ， 可 能 会 误导 我 们 ; 第 二 ， 学 习 算 法 有 可 能 依赖 于 影响 泛 化 的 其 
他 随机 因素 。 例 如 ， 对 于 使 用 后 向 传播 训练 的 一 个 多 层 感 知 器 ， 由 于 梯度 下 降 收 敛 于 局 部 极 
小 ， 所 以 初始 权重 会 影响 最 终 权重 ， 并 且 以 完全 相同 的 结构 和 训练 集 ， 以 不 同 的 初始 权重 开 
始 训练 ， 最 终 有 可 能 产生 多 种 分 类 器 ， 这 些 分 类 器 在 相同 的 验证 集 上 有 不 同 的 错误 率 。 因 而 
我 们 需要 多 轮 运 行 ， 以 便 平 均 这 些 随机 源 。 如 果 我 们 只 是 训练 和 验证 一 次 ， 则 无 法 检验 这 些 
因素 的 影响 ， 只 有 在 学 习 方法 的 代价 很 高 以 至 于 只 能 训练 和 验证 一 次 时 ， 训 练 和 验证 一 次 才 
是 可 以 接受 的 。 

我 们 在 一 个 数据 集 上 运行 学 习 算 法 (learning algorithm) 并 产生 一 个 学 习 器 (learner) 。 如 
果 我 们 只 训练 一 次 ， 则 只 得 到 一 个 学 习 器 和 一 个 验证 误差 。 为 了 平均 各 种 随机 性 (来 自 训练 
数据 、 初 始 权重 等 ) ， 我 们 使 用 相同 的 算法 来 产生 多 个 学 习 髓 ， 进 而 在 多 个 验证 集 上 检验 它 
们 并 记录 验证 误差 的 一 个 样本 ( 当然 ， 所 有 训练 和 验证 集 均 应 取 自 同一 应 用 ) 。 我 们 对 学 习 
算法 的 评估 基于 这 些 验证 误差 的 分 布 ( distribution ) 。 我 们 可 以 使 用 这 一 分 布 来 评估 学 习 算 法 
在 该 问题 上 的 期 望 误差 (expected error) ， 或 者 将 它 与 某 种 其 他 学 习 算法 的 误差 率 分 布 进行 
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比较 。 

在 讨论 这 一 过 程 如 何 完成 之 前 ， 需 要 重点 强调 以 下 几 点 : 

1) 需要 牢记 的 是 : 无 论 我 们 从 分 析 中 获得 何 种 结论 ， 该 结论 都 限于 所 给 定 的 数据 集 。 
我 们 并 不 用 独立 于 领域 的 方式 来 比较 学 习 算 法 ， 而 是 针对 某 一 特定 应 用 进行 比较 。 一 般 而 
言 ， 我 们 不 对 学 习 算 法 的 期 望 误差 率 做 任何 讨论 ， 也 不 将 一 个 学 习 算 法 和 男 一 个 进行 比较 。 
我 们 得 到 的 任何 结果 只 对 特定 的 应 用 成 立 ， 而 且 仅 在 该 应 用 可 以 由 我 们 使 用 的 样本 代表 的 意 
义 上 有 效 。 而 且 无 论 如 何 ， 正 如 没有 免费 的 午餐 法 则 (No Free Lunch Theorem ) ( Wolpert 
1995 ) 所 述 ， 没 有 诸如 “最 好 的 ”学习 算 法 之 说 。 对 于 任何 学 习 算 法 , 均 有 一 个 数据 集 使 其 非 
常 准确 ， 而 另 一 个 数据 集 使 其 非常 差 。 当 我 们 认为 一 个 学 习 算 法 好 时 ， 只 是 量化 其 归纳 偏 倚 
在 多 大 程度 上 与 数据 的 性 质 一 致 。 

2) 将 给 定数 据 集 划 分 为 一 定数 量 的 训练 集 和 验证 集 对 仅仅 是 为 了 检验 。 一 旦 所 有 的 检 
验 完成 ， 并 且 决 定 了 最 终 方法 或 超 参数 ， 为 了 训练 最 终 学 习 器 ， 我 们 可 以 使 用 先前 用 于 训练 
或 验证 的 所 有 已 标记 数据 。 

3) 由 于 我 们 还 使 用 验证 集 进 行 检验 ， 比 如 ， 为 了 选择 两 个 学 习 算 法 中 较 好 的 一 个 ， 或 
决定 何 时 停止 学 习 ， 验 证 集 实际 上 成 为 我 们 所 使 用 数据 的 一 部 分 。 在 结束 所 有 的 检验 之 后 ， 
我 们 选 定 了 某 一 特定 的 算法 并 且 和 希望 报告 其 期 望 误差 ， 为 此 我 们 应 使 用 另外 一 个 在 训练 最 终 
系统 过 程 中 未 曾 使 用 过 的 检验 集 (test set) 。 该 数据 应 当 在 之 前 的 训练 或 验证 过 程 中 从 未 使 用 
过 ， 并且 应 足够 大 以 使 误差 估计 有 意义 。 因 此 ， 给 定 一 个 数据 集 ， 我 们 应 当 保 留 一 部 分 数据 
作为 检验 集 ， 而 其 余 的 数据 用 于 训练 和 验证 。 通 常 ， 像 我 们 在 稍 后 看 到 的 那样 ， 我 们 可 以 留 
1/3 的 样本 作为 检验 集 ， 使 用 另外 273 做 交叉 验证 ， 以 产生 多 对 训练 /验证 集 。 因 而 ， 给 定 
特定 学 习 算法 和 模型 结构 ， 训 练 集 用 于 参数 优化 ; 验证 集 用 于 优化 学 习 算 法 或 模型 结构 的 超 
参数 ; 而 一 旦 二 者 均 被 优化 ， 才 在 最 后 使 用 检验 集 。 例 如 ， 对 一 个 多 层 感知 器 (MLP) 而 言 ， 
训练 集 用 于 优化 权重 ， 验 证 集 用 于 确定 隐藏 单元 个 数 、 训 练 多 久 、 学 习 率 等 。 一 旦 选择 了 最 
佳 的 MLP 配置 ， 其 最 终 的 误差 在 检验 集 上 计算 。 对 于 k-NN， 训 练 集 作为 查找 表 存储 ; 我们 
在 验证 集 上 优化 距离 度量 和 上 大 值 ， 最 后 在 检验 集 上 进行 检验 。 

4) 通常 ， 我 们 就 错误 率 对 学 习 算 法 进行 比较 ， 但 应 牢记 ， 在 现实 中 ， 误 差 仅 仅 是 影响 
决策 的 一 个 标准 。 一 些 其 他 标准 是 (Tumey 2000) : 

当 使 用 损失 函数 ， 而 非 O/1 损失 (参见 3. 3 节 ) 对 误差 进行 泛 化 时 的 风险 。 
训练 的 时 间 和 空间 复杂 度 。 
检验 的 时 间 和 空间 复杂 度 。 

m 可 解释 性 ， 即 使 用 的 方法 是 否 人 允许 提取 可 以 由 专家 检查 和 确认 的 知识 。 

se。 易于 编程 。 

这 些 因 素 相对 重要 程度 依赖 于 应 用 。 例 如 ， 如 果 在 工厂 中 只 进行 一 次 训练 ， 那 么 训练 的 
时 间 和 空间 复杂 度 就 不 重要 ; 如 果 在 使 用 过 程 中 要 求 自 适应 性 ， 则 训练 的 时 间 和 空间 复杂 
就 变 得 重要 了 。 多 数学 习 算法 使 用 0/1 损失 并 以 误差 最 小 化 为 唯一 标准 ; 最 近 ， 提 出 了 这 些 
算法 的 变种 ， 即 代价 敏感 学 习 ( cost-sensitive learning) 算 法 把 其 他 代价 标准 也 考虑 在 内 。 

当 我 们 在 一 个 数据 集 上 使 用 训练 集训 练 学 习 器 ， 在 验证 集 上 检验 它 的 准确 率 并 试图 提取 
结论 时 ， 我 们 所 做 的 是 实验 。 统 计 学 提供 了 系统 的 方法 ， 指 导 我 们 正确 地 设计 实验 ， 告 诉 我 
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们 如 何 分 析 收 集 的 数据 ， 以 便 得 到 统计 显著 的 结论 ( Montgomery 2005 ) 。 本 章 我 们 将 考察 如 
何 将 这 些 方法 用 于 机 器 学 习 。 


19.2 因素 、 响 应 和 实验 策略 


与 科学 和 工程 的 其 他 分 支 一 样 ， 在 机 器 学 习 中 我 们 也 做 实验 ， 以 便 获 得 关于 考察 的 过 程 
信息 。 这 里 ， 所 考察 的 是 学 习 器 ， 它 已 经 在 一 个 数据 集 上 训练 ， 能 够 对 给 定 的 输入 产生 答 
出 。 实 验 (experiment) 是 一 次 检验 或 一 系列 检验 ， 其 中 包含 一 些 影响 输出 的 因素 (factor)。 这 
些 因素 可 以 是 使 用 的 算法 、 训 练 集 、 输 入 特征 等 ， 而 我 们 观察 响应 (response) 的 变化 ， 以 便 
能 够 提取 信息 。 目 标 可 以 是 识别 最 重要 的 因素 ， 排 除 不 重要 的 因素 ， 或 者 是 找 出 某 种 因素 配 
置 来 优化 响应 ， 例 如 ， 优 化 在 给 定 检验 集 上 的 分 类 准确 率 。 

我 们 的 目标 是 规划 和 进行 机 器 学 习 实验 ， 并 分 析 实 验 产 生 的 数据 ， 以 便 能 够 排除 随机 性 
的 影响 ， 得 到 统计 显著 的 (statistically significant) 结 论 。 在 机 器 学 习 中 ,我 们 的 目标 是 具有 最 
高 泛 化 准确 率 、 最 小 复杂 度 的 学 习 器 (以 便 其 实现 的 时 间 和 空间 代价 低 ) ， 并 且 该 学 习 器 是 
鲁 棒 的 ， 即 受 外 部 变化 的 影响 最 小 。 

一 个 训练 后 的 学 习 器 可 能 如 图 19-1 所 示 。 对 于 一 个 检验 输入 ， 它 产生 一 个 输出 (例如 ， 
类 编码 ) ， 并 且 依 赖 于 两 类 因素 : 可 控 因素 和 不 可 控 因 素 。 


正如 名 称 所 示 ， 可 控 因 素 (controllable factor) 是 我 们 控制 的 
那些 因素 。 最 基本 的 可 控 因 素 是 使 用 的 学 习 算法 。 还 有 算法 
的 超 参数 ， 例 如 ， 多 层 感知 器 的 隐藏 单元 数 、 上 最 近邻 的 上 、 入 
支持 向 量 机 的 C 等 。 所 使 用 的 数据 集 和 输入 表示 ( 即 输入 如 输出 
何 表示 成 向 量 ) 都 是 可 控 因 素 。 
还 有 一 些 我 们 不 能 控制 的 不 可 控 因 素 (uncontrollable fac- 
tor) ， 将 不 期 望 的 可 变性 添加 到 过 程 中 ， 我 们 不 想 让 它们 影 
响 我 们 的 决策 。 这 些 因素 包括 数据 中 的 噪声 、 重 复 从 大 数据 a 
集中 抽样 产生 的 特定 训练 子 集 、 优 化 过 程 中 的 随机 性 ， 例 如 图 19-1 给 定 输入 ， 产 生 输 出 的 
多 层 感 知 器 的 梯度 下 降 中 的 初始 状态 等 。 人 


我 们 使 用 输出 来 产生 响应 (response) 变量 ; 例如 ， 检 验 
集 上 的 平均 分 类 误差 .使 用 损失 函数 的 期 望 风 险 或 其 他 测度 ， 如 我 们 稍 后 将 讨论 的 精度 和 召 
回 率 。 

给 定 多 种 因素 ,我 们 需要 为 最 佳 响 应 找 出 这 些 因素 的 最 佳 设 置 或 者 更 一 般 地 ， 我 们 需 
要 确定 它们 对 响应 变量 的 影响 。 例 如 ， 在 使 用 最 近邻 (NN) 分 类 方法 之 前 ， 我 们 可 能 使 
用 主 成 分 分 析 (PCA) 将 维度 降低 到 d。d 和 处 是 两 个 因素 ， 而 问题 是 d 和 哪个 组 合 导致 最 
优 性 能 。 或 者 ， 我 们 可 以 使 用 具有 高 斯 核 的 支持 向 量 机 分 类 方法 ， 而 我 们 需要 将 正则 化 参数 
C 和 高 斯 分 布 的 展 宽 s 同时 调整 。 

存在 多 种 实验 策略 (strategies of experimentation), ， 如 图 19-2 所 示 。 在 最 佳 猜测 (best 
guess) 方法 中 ， 我 们 从 某 个 我 们 相信 是 良好 配置 的 因素 设置 开始 。 在 此 检验 咯 应 ， 并 且 每 次 
稍微 改动 一 个 (或 少量 ) 因素 ,检验 每 个 组 合 ， 直 至 得 到 一 个 我 们 认为 是 够 好 的 状态 。 如 果 
实验 过 程 很 直观 ， 这 种 方法 可 能 有 效 。 但 要 注意 ， 这 里 没有 系统 的 方法 来 修改 因素 ， 并 且 当 
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我 们 停止 时 ， 不 能 保证 找到 最 佳 配置 。 


Op jase 








I aes aes aa 
E| |! \ | ! 
ane 
ar oe Bb a 
因素 1 
a) 最 佳 猜测 b) 一 次 一 个 因素 c) 因素 设计 


图 19-2 ”两 个 因素 ,每 个 五 个 不 同 水 平 的 实验 策略 


另 一 种 策略 是 一 次 一 个 因素 (one factor at a time) 地 修改 。 在 这 种 方法 中 ,我 们 为 所 有 因 
素 确定 一 个 基线 ( 缺 省 ) 值 ， 然 后 对 一 个 因素 尝试 不 同 水 平 ， 同 时 令 其 他 因素 保持 在 基线 上 。 
这 种 方法 的 主要 缺点 是 ， 它 假定 因素 之 间 不 相互 影响 ， 这 一 假定 并 非 总 能 成 立 。 在 稍 早 讨论 
的 PCA/k -NN RKR, d 的 每 个 选择 都 为 -NN 定义 了 不 同 的 输入 空间 ， 其 中 不 同 的 大 值 
可 能 更 合适 。 

正确 的 方法 是 使 用 因素 设计 (factorial design) ， 其 中 因素 一 起 变化 ,不 是 一 次 一 个 ; 这 
通俗 地 称 作 网 格 搜索 (grid search) 。 对 于 下 个 因素 ， 每 个 因素 有 工 个 水 平 ， 一 次 一 个 因素 搜 
索 需 要 O(Z . P) 时 间 ， 而 因素 设计 实验 需要 做 O(Z ) 时 间 。 


19.3 响应 面 设 计 


为 了 减少 需要 的 运行 次 数 ， 一 种 可 能 的 方法 是 运行 部 分 因素 设计 ， 仅 运行 所 有 配置 的 一 
个 子 集 ; 另 一 种 方法 是 尝试 使 用 上 一 次 运行 收集 的 知识 来 估计 看 上 去 会 有 高 响应 的 配置 。 在 
一 次 一 个 因素 的 搜索 中 ， 如 果 我 们 能 够 假定 响应 通常 是 二 次 的 (具有 单个 最 大 ， 假 定 我 们 最 
大 化 响应 ， 如 检验 准确 率 ) ， 则 不 尝试 所 有 的 值 ， 而 是 使 用 一 个 迭代 过 程 ， 从 某 个 初始 运行 
开始 ， 拟 合 一 个 二 次 曲面 ， 解 析 地 找 出 它 的 极 大 值 ， 取 它 作 为 下 一 个 估计 ， 在 这 种 情况 下 运 
行 一 次 实验 ， 把 结果 数据 添加 到 样本 中 ， 然 后 继续 拟 合 和 抽样 ， 直 到 不 能 进一步 改进 为 止 。 
使 用 多 个 因素 ， 这 被 推广 为 响应 面 设计 (response surface design ) 方 法 ， 那 里 我 们 尝试 用 
有 参 的 响应 函数 拟 合 这 些 因素 : 
r= gias Se |b) 
其 中 , r 是 响应 ,而 f(i=1,，…, F) PAR. KPHAEER 6 定义 的 被 拟 合 的 有 参 函 数 
是 我 们 的 经 验 模型 ， 它 对 (可 控 的 ) 因素 的 具体 配置 估计 响应 ; 不 可 控 因 素 的 影响 按 噪 声 建 
模 。&(') 是 一 个 回归 模型 (通常 是 二 次 的 ) ， 并 且 在 基线 (由 所 谓 的 设计 给 阵 ( design matrix) 
定义 ) 附近 的 少数 几 次 运行 之 后 ， 我 们 就 能 得 到 足够 的 数据 来 拟 合 g(*)。 然 后 ， 我 们 就 能 解 
析 地 计算 使 拟 合 的 g 取 最 大 值 的 大 ， 这 被 我 们 取 作 下 一 个 猜测 ， 在 下 一 个 猜测 中 运行 实验 ， 
得 到 数据 实例 ， 将 它 添加 到 样本 中 ， 再 次 拟 合 8g， 如 此 下 去 ， 直 到 收 合 。 这 种 方法 是 否 有 效 
取决 于 响应 是 否 确 实 是 因素 的 具有 单个 最 大 值 的 二 次 函数 。 
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19.4 随机 化 、 重 复 和 阻止 


现在 ， 我 们 讨论 实验 设计 的 三 项 基本 原则 : 

m 随机 化 (randomization ) 要 求实 验 运行 的 顺序 应 该 随机 确定 ， 从 而 使 得 结果 是 独立 的 。 
通常 ， 在 涉及 物理 对 象 的 现实 世界 的 实验 中 ， 这 是 一 个 问题 。 例 如 ， 机 器 需要 一 些 
时 间 来 预 热 直 到 它们 在 正常 范围 运转 ， 因 此 检验 应 该 在 随机 次 序 下 完成 ， 以 不 影响 
结果 。 在 软件 实验 中 ， 顺 序 一 般 不 是 问题 。 

= 重复 (replication) 意 味 着 应 该 对 (可 控 的 ) 因素 的 相同 配置 做 多 次 实验 ， 以 便 平 均 不 可 
控 因 素 的 影响 。 在 机 器 学 习 中 ， 这 通常 通过 在 相同 数据 集 的 许多 再 抽样 的 版 本 上 运 
行 相同 的 算法 来 实现 ; 这 称 作 交叉 验证 (eross-validation ) ， 我 们 将 在 19. 6 节 讨 论 。 
响应 在 相同 实验 的 这 些 不 同 重复 上 的 变化 ， 使 得 我 们 可 以 得 到 实验 误差 (不 可 控 因 素 
的 影响 ) 的 估计 ， 这 又 可 以 用 来 确定 多 大 的 差别 才能 视 为 统计 显著 的 (statistically sig- 
nificant ) 。 

m 阻止 (blocking) 用 来 降低 或 消除 有 害 因素 (nuisance factor) 导致 的 可 变性 ， 有 害 因 素 
是 影响 响应 但 我 们 对 其 不 感 兴趣 的 因素 。 例 如 ， 工 厂 的 生产 缺陷 也 可 能 与 原材料 的 
批 次 有 关 ， 而 这 种 影响 应 该 与 工厂 里 的 设备 、 人 员 等 可 挖 因素 分 开 。 在 机 器 学 习 实 
验 中 ， 当 我 们 使 用 再 抽样 ， 对 不 同 的 重复 实验 使 用 数据 的 不 同 子 集 时 ， 需 要 确保 如 
果 我 们 比较 学 习 算 法 ， 则 它们 应 该 使 用 相同 的 再 抽样 子 集 的 集合 ， 和 否则 准确 率 的 差 
异 不 仅 取决 于 不 同 的 算法 ， 而 且 还 取决 于 不 同 的 子 集 。 为 了 能 够 度量 仅 由 于 算法 导 
致 的 差别 ， 重 复 运 行 的 不 同 训练 集 应 该 是 相同 的 ， 这 就 是 阻止 的 含义 。 在 统计 学 中 ， 
如 果 有 两 个 总 体 ， 则 这 称 作 配 对 (pairing) 并 用 于 配对 检验 (pairing testing) 。 


19.5 机 器 学 习 实 验 指南 


在 开始 实验 之 前 ， 我 们 需要 清楚 研究 什么 ， 如 何 收集 数据 ， 我 们 打算 怎样 分 析 它 。 对 任 
何 类 型 的 实验 来 说 ， 机 器 学 习 的 步骤 都 是 相同 的 (Montgomery 2005 ) 。 注 意 ， 在 这 里 ， 任 务 
是 分 类 还 是 回归 ， 是 非 监督 的 还 是 增强 学 习 的 应 用 并 不 重要 。 整 个 讨论 都 适用 ， 唯 一 的 区 别 
是 所 收集 的 响应 数据 的 抽样 分 布 。 

1) 研 究 目标 

我 们 需要 通过 清楚 地 陈述 问题 、 定 义 研究 目标 开始 。 在 机 器 学 习 中 ， 可 能 存在 多 种 可 能 
性 。 例 如 ， 正 如 我 们 以 前 所 讨论 的 ， 我 们 感 兴趣 的 可 能 是 评估 一 种 学 习 算 法 在 特定 问题 上 的 
期 望 误差 (或 某 种 其 他 响应 度量 ) ， 并 检查 该 误差 是 否 低 于 某 个 可 以 接受 的 水 平 。 

给 定 两 个 学 习 算法 和 一 个 由 数据 集 定义 的 具体 问题 ， 我 们 可 能 希望 确定 哪个 算法 具有 较 
低 的 证 化 误差 。 这 两 个 算法 可 能 是 不 同 的 算法 ， 也 可 能 一 个 算法 是 另 一 个 的 改进 ， 例 如 ， 通 
过 使 用 更 好 的 特征 提取 来 改进 。 

在 一 般 情况 下 ， 可 能 有 多 个 学 习 算法 ， 而 我 们 可 能 想 要 选择 具有 最 低 误 差 的 算法 ,或 者 
对 于 给 定数 据 集 ， 将 它们 按 误 差 排 序 。 

在 更 一 般 的 情况 下 ， 我 们 可 能 希望 在 两 个 或 多 个 数据 集 上 ， 而 不 是 在 单个 数据 集 上 比较 
两 个 或 多 个 算法 。 
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2) 响 应 变量 的 选择 

我 们 需要 确定 我 们 应 该 使 用 什么 作为 质量 度量 。 最 常 使 用 的 是 误差 ， 即 分 类 的 误 分 类 错 
误 和 回归 的 均 方 误差 。 我 们 也 可 以 使 用 某 些 变形 ， 例 如， 可 以 使 用 风险 度量 ,将 0/1 损失 推 
广 为 任 意 损 失 。 在 信息 检索 中 ,我们 使 用 诸如 精度 和 召回 率 这 样 的 度量 ,我们 将 在 19.7 节 
讨论 。 在 代价 敏感 学 习 中 ， 不仅 要 考虑 输出 ， 还 要 考虑 系统 参数 ,例如 复杂 度 。 

3) 因素 和 水 平 的 选择 

因素 是 什么 取决 于 研究 目标 。 如 果 我 们 固定 算法 并 且 想 要 找 出 最 佳 超 参数 ， 则 这 些 超 参 
数 就 是 因素 。 如 果 我 们 想 比 较 算法 ， 则 学 习 算 法 是 因素 。 如 果 我 们 有 不 同 的 数据 集 ， 则 这 些 
数据 集 也 成 为 因素 。 

因素 的 水 平 应 该 小 心 选 择 ， 以 便 不 失去 好 的 配置 ， 并 且 避 免 做 不 必要 的 实验 。 最 好 试 着 
对 因素 水 平 规范 化 。 例 如 ， 在 优化 上 最 近邻 的 大 值 时 ， 可 以 尝试 1、3、5 等 值 ， 但 在 优化 
Parzen 窗口 的 展 宽 记 时， 我 们 不 要 尝试 诸如 1.0、2. 0 等 绝对 值 ， 因 为 它 依赖 于 输入 的 标 度 。 
最 好 使 用 指示 标 度 的 统计 量 ， 例 如 ， 实 例 与 它 的 最 近邻 之 间 的 平均 距离 ， 并且 尝试 将 h 作为 
该 统计 量 的 不 同 倍数 。 

尽管 以 前 的 经 验 一 般 是 加 分 的 ， 但 是 同样 重要 的 是 考察 所 有 的 因素 和 可 能 重要 的 因素 水 
平 ， 而 不 过 于 受 以 往 经 验 的 影响 。 

4) 实 验 设计 的 选择 

除非 我 们 确信 因素 之 间 不 相互 影响 ， 否 则 最 好 做 因素 设计 ， 因 为 因素 之 间 多 半 会 相互 影 
响 。 重 复 的 次 数 依赖 于 数据 集 的 规模 ; 当 数 据 集 大 时 ， 它 可 以 保持 小 ; 下 一 节 讨 论 再 抽样 时 
我 们 将 讨论 这 一 问题 。 然 而 ， 太 少 的 重复 产生 少量 数据 ， 使 得 分 布 比较 很 困难 ; 在 参数 检验 
这 种 特殊 情况 下 ， 高 斯 分 布 假设 可 能 靠不住 。 

一 般 地 ， 给 定 一 个 数据 集 ， 我 们 留 一 部 分 作为 检验 集 ， 而 其 余 的 用 来 训练 和 验证 ， 在 大 
部 分 时 候 这 可 以 通过 再 抽样 来 做 。 如 何 进行 划分 是 重要 的 ， 实 践 中 ， 使 用 小 数据 集 导 致 具有 
高 方差 的 响应 ， 差 别 可 能 是 不 显著 的 ， 并 且 结 果 可 能 不 是 令 人 信服 的 。 

此 外 ， 重 要 的 是 尽 可 能 地 避免 使 用 无 使 用 价值 的 人 造 数 据 集 ， 而 要 使 用 从 现实 生活 环境 
中 收集 的 实际 数据 集 。 教 学 用 的 一 、 二 维 数据 集 可 能 有 助 于 提供 直观 解释 ， 但 是 在 高 维 空 
间 ， 算 法 的 行为 可 能 完全 不 同 。 

5 ) 做 实验 

在 运行 具有 许多 因素 和 水 平 的 大 型 因素 实验 之 前 ， 最 好 先 对 某 些 随机 设置 试 运行 几 次 ， 
检查 一 切 是 否 如 预期 的 一 样 。 在 一 个 大 型 实验 中 ， 最 好 保留 一 些 中 间 结 果 ( 或 随机 数 产生 器 
的 种 子 ) ， 以 便 需 要 时 可 以 重新 运行 整个 实验 的 一 部 分 。 所 有 的 结果 都 应 当 是 可 再 现 的 。 在 
运行 具有 许多 因素 和 因素 水 平 的 大 型 实验 时 ， 应 该 清楚 软件 老化 的 负面 影响 。 

重要 的 是 ， 在 做 实验 时 ， 实 验 者 是 无 偏向 的 。 在 将 个 人 喜爱 的 算法 与 其 他 算法 比较 时 ， 
两 个 算法 都 要 同样 仔细 地 考察 。 在 大 规模 的 研究 中 ， 甚 至 可 以 设想 测试 者 不 同 于 开发 者 。 

应 该 避免 写 自己 的 “程序 库 ” 的 诱惑 ， 而 是 应 该 尽 可 能 地 使 用 来 源 可 靠 的 程序 ， 这 样 的 
程序 经 受 了 更 好 的 测试 和 优化 。 

与 任何 软件 开发 研究 一 样 ， 好 文档 的 作用 不 可 低估 ， 特 别 是 在 分 组 开发 时 。 高 质量 的 软 
件 工程 开发 的 所 有 方法 也 应 该 用 在 机 器 学 习 实 验 中 。 
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6) 数 据 的 统计 分 析 

这 对 应 于 用 这 样 的 方式 分 析 数 据 : 无 论 我 们 得 到 什么 结论 ， 这 些 结论 都 不 是 主观 的 或 随 
机 的 。 我 们 在 假设 检验 的 框架 下 提出 想 要 回答 的 问题 ， 并 检查 样本 是 否 支 持 该 假设 。 例 如 ， 
问题 “4 是 比 B 更 准确 的 算法 吗 ?” 变 成 假设 “我 们 能 够 说 4 训练 的 学 习 器 的 平均 误差 显著 低 
F B 训练 的 学 习 带 吗 ?” 

像 通常 一 样 ， 可 视 分 析 是 有 帮助 的 ， 并 且 我 们 可 以 使 用 误差 分 布 的 直方 图 、 盒 图 、 变 程 
图 等 。 

7) 结 论 和 建议 

一 旦 收集 和 分 析 了 所 有 数据 ,我们 就 可 以 提取 客观 的 结论 。 最 常 遇 到 的 结论 是 需要 进 一 
步 实 验 。 大 部 分 统计 学 研究 、 大 部 分 机 咒 学 习 和 数据 挖 握 研 究 都 是 迭代 的 。 正 因为 如 此 ， 我 
们 从 来 都 不 是 一 开始 就 做 所 有 的 实验 。 有 人 建议 , 第 一 次 实验 考察 的 数据 不 超过 可 利用 资源 
的 25% (Montgomery 2005 ) 。 第 一 次 实验 只 是 调查 。 这 就 是 为 什么 开始 最 好 不 要 抱 太 大 期 望 ， 
向 你 的 老板 或 论文 导师 承诺 什么 的 原因 。 

我 们 应 该 始终 牢记 ， 统 计 检 验 不 会 告诉 我 们 假设 是 否 正确 ， 而 是 指出 样本 看 上 去 与 假设 
的 一 致 程度 有 多 大 。 总 是 存在 得 不 到 结论 性 结果 或 者 得 到 错误 结论 的 风险 ， 特 别 是 当 数据 集 
很 小 和 存在 噪声 时 。 

当 我 们 的 期 望 不 满足 时 ， 最 好 是 考察 为 什么 它们 不 满足 。 例 如 ， 检 查 为 什么 我 们 钟爱 的 
算法 4 在 某 些 情 况 下 效果 极 差 ， 我 们 可 能 对 4 改进 版 本 产生 绝妙 的 想法 。 所 有 的 改进 都 是 由 
于 以 前 的 版 本 有 缺陷 ; 找到 缺陷 是 有 益 的 暗示 : 存在 我 们 可 以 做 的 改进 ! 

但 是 ， 在 我 们 确信 已 经 完全 分 析 了 当前 的 数据 并 且 从 中 学 习 到 我 们 能 够 学 习 的 一 切 之 
前 ， 不 要 急于 做 改进 版 本 的 下 一 步 检验 。 想 法 是 廉价 的 、 无 用 的 ， 除 非 它 被 检验 ， 而 检验 是 
昂贵 的 。 


19.6 交叉 验证 和 再 抽样 方法 


为 了 重复 实验 ,我 们 的 第 一 个 需求 是 (在 留 下 一 些 作 为 检验 集 后 ) 从 数据 集 X 中 获得 一 定 
数目 的 训练 集 和 验证 集 对 。 为 此 ， 如 果 样 本 X 足 够 大 ， 我 们 可 以 随机 地 将 其 分 为 天 个 部 分 ， 
然后 将 每 一 部 分 随机 地 分 为 两 部 分 ， 一 半 用 于 训练 ， 另 一 半 用 于 验证 。 天 通常 为 10 或 30。 
不 幸 的 是 ， 数 据 集 从 未 有 如 此 之 大 ， 以 允许 我 们 这 样 做 。 因 此 ， 我 们 应 该 在 小 数据 集 上 尽力 
而 为 ， 其 方法 是 以 不 同 划 分 来 重复 使 用 相同 数据 ， 这 称 为 交叉 验证 (cross-validation ) 。 其 潜 
在 的 问题 是 交叉 验证 使 得 错误 率 是 相互 依赖 的 ， 因 为 这 些 不 同 集合 共享 了 数据 。 

因此 ， 给 定 一 个 数据 集 X， 我 们 和 希望 可 以 通过 该 数据 集 产生 天 对 训练 和 验证 集 17， 
Yi| 7_ 1。 我 们 要 保持 训练 和 验证 集 尽 可 能 大 ， 以 保证 误差 估计 的 鲁 棒 性 ; 同时 ， 要 保持 不 同 
集合 间 的 重合 尽 可 能 小 。 我 们 还 要 确保 当 抽 取 数 据 子 集 的 时 候 ， 类 以 正确 比例 被 代表 ， 不 拢 
乱 类 的 先 验 概率 ， 这 称 为 分 层 (stratification)。 如 果 一 个 类 在 整个 数据 集中 占有 20% 的 实例 ， 
则 在 所 有 取 自 该 数据 集 的 抽样 集中 ， 该 类 也 应 该 大 约 有 20% 的 实例 。 


19.6.1 HK- 折 交叉 验证 
在 KK- 折 交叉 验证 (KK-fold cross-validation) 中 ， 数 据 集 X 被 随机 地 划分 为 等 份 X;，i =1， 
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…， 天 。 为 了 产生 每 对 训练 集 和 验证 集 ， 我 们 将 天 份 数据 中 的 一 份 保留 为 验证 集 ， 其 余 K-1 
份 合 并 为 训练 集 。 重 复 开 次 ， 每 次 保留 开 份 中 的 另 一 份 数据 ， 可 得 到 天 对 数据 集 : 

TY =X Ti = X.UX% Ue U Xk 

V2 =X. T2 =X UX Us UX 


Ve = Xr Tr =X UX Ue U Xr 

这 种 方法 有 两 个 问题 : 首先 ， 为 了 保持 训练 集 较 大 ， 我 们 允许 验证 集 较 小 ; 其 次 ， 训 练 
集 在 相当 大 的 程度 上 重 全 ,确切 地 说 ,任意 两 个 训练 集 共 享 K -2 份 数据 。 

KK 一 般 为 10 或 30。 当 天 增加 的 时 候 ， 用 于 训练 实例 的 比例 增加 因而 产生 更 为 鲁 棒 的 佑 
计 ， 但 是 验证 集 相 应 变 小 。 此 外 ， 也 带 来 了 将 分 类 器 训练 天 次 的 代价 ， 这 一 代价 随 着 天 增 
加 而 增加 。 当 NN 增 大 时 ,KK 可 以 较 小 ; WRN), 则 天 应 该 大 ， 以 保证 有 足够 大 的 训练 集 。 
天 - 折 交 叉 验 证 的 一 个 极端 情况 是 留 一 (leave-one-out) ， 其 中 给 定 N 个 实例 的 数据 集 ， 只 保留 
一 个 实例 作为 验证 集 (验证 实例 ) ， 其 余 V -1 个 实例 作为 训练 集 。 由 此 我 们 通过 在 每 次 迭代 
中 保留 一 个 不 同 的 实例 而 得 到 对 不 同 的 训练 集 和 验证 集 。 这 种 方法 通常 用 于 诸如 医疗 诊 
断 的 应 用 中 ， 这 类 应 用 很 难 找 到 标记 数据 。 留 一 无 法 保证 分 层 。 

最 近 ， 随 着 计算 费用 的 降低 ， 多 次 运行 K- 折 交叉 验证 已 经 成 为 可 能 (例如 ，10 x 10 
折 ) ， 并 且 在 平均 值 上 取 平 均 ， 以 便 得 到 更 可 靠 的 误差 估计 (Bouchaert 2003 ) 。 


19.6.2 5x2 交叉 验证 


Dietterich(1998) 提 出 了 5 x2 交叉 验证 (3 x2 cross-validation) ， 使 用 等 大 小 的 训练 集 和 
验证 集 。 将 数据 集 X 随 机 地 分 为 两 部 分 : X ”和 XI”， 这 样 就 给 出 了 第 一 对 训练 集 和 验证 
E: Ti =X AV =% ”。 然 后 我 们 交换 两 个 半 份 的 角色 来 得 到 第 二 对 训练 集 和 验证 集 : 
T2 =X 和 Ys = XI" 。 这 就 是 第 一 次 对 折 ; XAO 表示 第 i 次 对 折 中 的 第 j 个 半 份 。 

为 了 得 到 第 二 次 对 折 ， 我 们 随机 地 将 X 打 乱 并 将 其 划分 为 新 的 对 折 X:” 和 X'”。 这 可 通 
过 从 X 中 随机 无 放 回 抽样 来 实现 ， 即 Xi' ”UX = XY UX? =X， 然 后 对 调 二 者 来 得 到 另 一 
对 数据 集 。 我 们 再 做 第 三 次 对 折 ， 因 为 每 次 对 折 我 们 得 到 两 对 数据 ， 做 5 次 对 折 我 们 共 得 到 
10 个 训练 集 和 验证 集 : 

SK VY =X 
Tas X? V, =X” 
=X Y =X” 
T, = xo Ys = x 


Ty =X! Vy ex? 

Tw = P Yio = a 
当然 ， 我 们 可 以 做 更 多 次 对 折 以 获得 更 多 对 的 训练 集 和 验证 集 ， 但 是 Dietterich ( 1998 ) 
指出 ,在 5 次 对 折 之 后 各 集合 共享 了 许多 实例 ， 过 度 的 重 全 使 得 由 此 计算 的 统计 量 , 确切 地 
说 ， 验 证 误差 率 变 得 相互 依赖 而 无 法 增加 新 的 信息 。 即 使 5 次 对 折 ， 各 集合 也 有 重合 而 统计 
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量 也 相互 依赖 ， 但 是 直到 5 折 之 前 这 些 影响 我 们 还 是 可 以 容忍 的 。 而 从 另 一 方面 来 说 ， 如 果 
使 用 更 少 的 对 折 次 数 ， 获 得 更 少 的 数据 ( 少 于 10 组 ) ， 将 无 法 获得 足够 大 的 样本 来 拟 合 分 布 
并 进行 假设 检验 。 


19.6.3 自助 法 


为 了 从 单个 样本 中 产生 多 个 样本 ， 替 代 交 叉 验 证 的 另 一 个 选择 是 自助 法 (bootstrap ) ， 即 
从 原始 样本 中 以 有 放 回 地 抽取 实例 的 方法 来 产生 新 的 样本 。 在 17.6 节 我 们 看 到 ， 装 袋 使 用 
自助 法 为 不 同 的 学 习 器 产生 训练 集 。 自 助 样本 可 能 比 交 叉 验证 样本 有 更 多 的 重 羡 ， 因 而 其 估 
计 可 能 更 为 相互 依赖 ; 但 对 小 数据 集 来 说 ， 这 种 方法 被 认为 是 做 再 抽样 的 最 好 方法 。 

在 自助 法 中 ， 我 们 从 大 小 为 N 的 数据 集中 有 放 回 地 抽取 WN 个 实例 。 原 始 数 据 集 作 为 验 
证 集 。 选 取 一 个 实例 的 概率 为 1AN， 不 选取 这 个 实例 的 概率 为 1 -= 1AN。 一 个 实例 在 NN 次 抽 
取 均 未 选中 的 概率 为 : 

(1 -4)" avg! = 0,368 
这 意味 着 训练 集 包 含 了 大 约 63.2% 的 实例 ; 也 就 是 说 ， 系 统 未 在 36. 8% 的 数据 上 进行 训练 ， 
因而 误差 估计 是 悲观 的 。 解 决 方法 是 重复 该 过 程 多 次 并 观察 平均 行为 。 


19.7 度量 分 类 器 的 性 能 
对 于 分 类 ， 特 别 是 对 于 两 类 问题 ， 已 经 提出 了 各 种 度量 。 存 在 4 种 情况 ， 如 表 19-1 所 








示 。 对 于 一 个 正 实例 ， 如 果 预 测 也 是 正 的 ， 则 19-4 WaDNKER 
它 是 一 个 真正 (true positive ) fi] ; 如 果 我 们 对 正 预测 的 类 
实例 的 预测 是 负 的 ， 则 它 是 一 个 假 负 (false 实际 的 类 正 的 “| fatty 合计 
negative) 例 。 对 于 一 个 负 实例 ， 如 果 预 测 也 是 EN mn xe | me BR p 


负 的 ， 则 它 是 一 个 真 负 (true negative) fil; 如 负 的 fo: 假 正 | in: 真 负 n 
果 我 们 将 负 实 例 的 预测 为 正 的 ， 则 我 们 有 一 个 ' 
{fi IE (false positive ) fi], 

在 某 些 两 类 问题 中 ,我 们 区 分 这 两 个 类 ， 因 此 有 两 种 类 型 的 错误 : 假 正 和 假 负 。 
K 19-2 给 出 了 适用 于 不 同情 况 下 的 不 同 度量 。 让 我 们 设想 一 种 身份 认证 应 用 ， 其 中 用 户 通 
过 声音 登录 他 的 账户 。 假 正 例 是 错误 地 允许 冒名 顶替 者 登录 ， 而 假 负 例 是 拒绝 合法 用 户 。 显 























然 ， 两 种 类 型 的 错误 并 非 同样 精 糕 ， 前 一 种 更 表 19-2 两 类 问题 使 用 的 性 能 度量 
有 害 。 真 正 率 tp-rate 又 称 命中 率 (hit rate), ”名 区 | 公式 
度量 通过 身份 认证 的 合法 用 户 的 比例 ， 而 假 正 误差 Up +fn)/N 
X fp-rate 又 称 假 报警 率 (false alarm rate) ， 是 准确 率 (ip +in)/N =1 一 误差 
错误 地 接受 冒名 顶替 者 的 比例 。 tp-rate ‘p/p 

假设 系统 返回 正 类 的 概率 P(C |x), 而 一 2 m 
对 于 负 类 我 们 有 P(C; |x) =1-P(C, |x), IF i 
且 如 果 P( C, |x) >9， 则 我 们 选择 “ 正 ”。 如 果 灵敏 度 ee 
9 接近 于 1， 则 我 们 很 难 选择 正 类 ; 也 就 是 说 ， PAE | niet 
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我 们 将 没有 假 正 例 ， 但 是 也 只 有 少量 真正 例 。 随 着 减 小 9 来 增加 真正 例 数 ， 我 们 冒 着 引进 假 
正 例 的 风险 。 

对 于 不 同 的 89 值 ， 我 们 可 以 得 到 许多 (tp-rate， 刀 -rate ) 值 对 ， 而 连接 它们 我 们 得 到 接受 
者 操作 特征 (receiver operating characteristic, ROC) 曲线 ， 如 图 19-3(a) 所 示 。 注 意 ， 不同 的 0 
值 对 应 于 这 两 种 类 型 误差 的 不 同 损失 和 矩阵， 并 且 ROC 曲线 也 可 以 看 作 不 同 损失 矩阵 下 的 分 
类 器 的 行为 (参见 习题 1 ) 。 

理想 地 ， 分 类 器 的 真正 率 为 1， 假 正 率 为 0， 因 此 ROC 曲线 越 靠近 左上 角 的 分 类 器 越 
好 。 在 对 角 线 上 ， 我 们 做 出 的 真 决策 与 假 决 策 一 样 多 ， 并 且 这 是 最 坏 情 况 (对 角 线 下 方 的 分 
类 器 都 可 以 通过 翻转 它 的 决策 来 改进 ) 。 给 定 两 个 分 类 器 ， 我 们 认为 一 个 比 另 一 个 好 ， 如 果 
它 的 ROC 曲线 在 另 一 个 的 上 方 ; 如 果 两 条 ROC 曲线 相交 ， 则 我 们 可 以 认为 两 个 分 类 器 在 不 
同 的 损失 条 件 下 更 好 ， 如 图 19-3(b) 所 示 。 

ROC 曲线 提供 了 可 视 分 析 。 如 果 我 们 想 将 该 曲线 归结 为 一 个 数 ， 则 可 以 通过 计算 曲线 
下 方面 积 (area under the curve，AUC ) 来 实现 。 理 想 地 ， 分 类 器 的 AUC 等 于 1， 并 且 可 以 比 
较 不 同 分 类 器 的 AUC 值 ， 以 得 到 不 同 损失 条 件 下 取 平 均 的 整体 性 能 。 





fp-rate fp-rate 
a) ROC 曲 线 的 例子 b) 不 同 分 类 器 的 不 同 ROC 曲 线 


图 19-3 a) 典 型 的 ROC 曲线 。 每 个 分 类 器 有 一 个 阔 值 ， 使 得 我 们 可 以 在 曲线 上 移动 ， 并 根据 命中 
和 假 警 报 ( 即 真正 例 和 假 正 例 ) 之 间 的 相对 重要 程度 来 在 曲线 上 确定 一 个 点 。ROC 曲线 下 
方 的 面积 称 作 AUC, b) 如 果 一 个 分 类 器 的 ROC 曲线 更 接近 左上 角 ( 较 大 的 AUC) ， 则 它 
更 可 取 。B 和 C 都 比 4 更 可 取 ; B 和 C 在 不 同 的 损失 乍 阵 下 更 可 取 
在 信息 检索 (information retrieval) 中 ， 有 一 个 记录 的 数据 库 ; 例如 ， 我 们 使 用 某 些 关键 
词 提 出 查询 ， 并 且 系 统 ( 基 本 上 是 一 个 两 类 分 类 器 ) 返回 大 量 记录 。 在 该 数据 库 中 ， 存 在 一 
些 相关 记录 ， 并 且 对 于 一 个 查询 ， 系 统 可 能 检索 到 它们 中 的 某 些 (真正 例 ) ， 但 可 能 不 是 所 
有 的 ( 假 负 例 ) ; 还 可 能 错误 地 检索 到 不 相关 的 记录 ( 假 正 例 ) 。 相 关 和 检索 到 的 记录 的 集合 
可 以 用 维 恩 图 表示 ， 如 图 19-4(a) 所 示 。 精 度 (precision ) 是 检索 到 的 并 且 相 关 的 记录 数 除 以 
检索 到 的 记录 总 数 。 如 果 精 度 为 1， 则 所 有 检索 到 的 记录 都 是 相关 的 ， 但 可 能 还 存在 一 些 相 
关 但 未 检索 到 的 记录 ， 如 图 19-4(b) 所 示 。 召 回 率 (recall ) 是 检索 到 的 并 且 相 关 的 记录 数 除 
以 相关 记录 的 总 数 。 即 便 吾 回 率 等 于 1， 所 有 相关 记录 可 能 都 被 检索 到 ， 但 仍然 可 能 有 不 相 
关 的 记录 被 检索 到 ， 如 图 19-4(c) 所 示 。 与 ROC 曲线 一 样 ， 我 们 也 可 以 对 不 同 的 阅 值 绘制 
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精度 和 召回 率 的 曲线 。 
召回 a 精度 : wa 
H% 检索 到 
j 的 并 且 
相关 的 召回 率 : -2 
a) 精度 和 召回 率 
2 

E 
b) 精度 =1 c) 召回 率 =1 


图 19-4 a) 使 用 维 恩 图 定义 精度 和 召回 率 。b) 精度 为 1; 所 有 检索 到 的 记录 都 是 相关 的 ， 但 
可 能 有 相关 的 记录 未 被 检索 到 。ec) 召回 率 为 1; 所 有 相关 的 记录 都 被 检索 到 ， 但 可 
能 有 不 相关 的 记录 也 被 检索 到 
从 另 一 个 角度 但 以 相同 的 目的 ， 还 存在 两 个 度量 : 灵敏 度 (sensitivity ) 和 特效 性 ( speci- 
ficity) 。 灵 人 敏 度 与 真正 率 和 召回 率 相同 。 特 效 性 度量 检索 负 实例 的 好 坏 ， 它 是 真 负 实例 数 除 
以 负 实 例 的 总 数 ; 它 等 于 !1 减 去 假 警 报 率 。 我 们 也 可 以 使 用 不 同 的 国 值 绘制 灵敏 度 和 特效 性 
的 曲线 。 
对 于 KK >2 个 类 ， 如 果 我 们 使 用 0/1 RÆ, Wl) KA 42H ( class confusion matrix) 是 一 个 
Kx K HREM, Hoc (i, 站 是 属于 C; 类 但 却 误 分 到 C 类 的 实例 的 个 数 。 在 理想 情况 下 ， 所 
有 的 非 对 角 线 元 素 均 应 为 0， 表 示 没 有 错误 分 类 。 类 混淆 矩阵 允许 我 们 准确 地 指出 出 现 了 哪 
种 类 型 的 误 分 类 ， 即 是 否 有 两 个 类 经 常 被 混淆 。 或 者 ， 我 们 也 可 以 分 别 定 义 天 个 两 类 问题 ， 
每 个 将 一 个 类 与 其 他 天 -1 个 类 分 开 。 


19.8 区 间 估 计 


下 面 快速 回顾 一 下 我 们 将 在 假设 检验 中 用 到 的 区 间 估 计 (interval estimation) 。 点 估计 ， 
如 最 大 似 然 估计 ， 是 对 参数 9 指定 一 个 值 。 在 区 间 估 计 中 ,我们 以 某 种 置信 度 对 参数 9 位 于 
的 区 间 进 行 确定 。 为 了 得 到 这 种 区 间 估 计 ， 我们 利用 点 估计 的 概率 分 布 。 

例如 ， 假 设 我 们 要 从 样本 X = |x'} 0_, 中 估计 正 态 密度 的 均值 4。m = 》 x'/N 是 样本 平均 
值 ， 并 且 是 对 均值 的 点 估计 。m 是 正 态 分 布 值 之 和 ， 因 而 也 是 正 态 的 , m ~ 和 NW (u, P/N). 
我 们 用 单位 正 态 分 布 来 定义 该 统计 量 : 


(m -p) a 2 
dR (19.1) 
我 们 知道 95% 的 Z 落 在 ( - 1.96, 1.96), EI P| -1.96 <Z<1.96} =0.95， 因 而 我 们 
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有 (参见 图 19-5) : 
P{- 1.96 < (RA < 1.96} = 0.95 
或 等 价 地 
P{m ~ 1.96 <p<m + 1.96 7} = 0.95 
也 就 是 说 “以 95% 的 置信 度 ”, 落 在 样本 平均 值 正 负 1. 96cWN 个 单位 的 区 间 内 ， 即 双 


侧 置 信 区 间 (two- sided confidence interval), VA 99% 的 置信 和 度 , u Elm - 2. 8504/N, m+ 


2. 850A/N) 中 。 也 就 是 说 ， 如 果 我 们 需要 更 高 的 置信 和 度 ， 则 区 间 增 大 。 随 着 样本 集 的 规模 N 
增 大 ， 区 间 变 小 。 
单位 正 态 Z=N(0,1) 





x OF --- 


图 19-5 在 单位 正 态 分 布 中 ，95% 的 值 位 于 - 1.96 ~ 1. 96 
这 可 以 按 如 下 方法 推广 到 任意 置信 和 度 : 令 z 使 得 


P|Z >z} =a, O<a<l 
由 于 Z 是 关于 均值 对 称 的 ， MWA zian = Zp) 并 且 PIX< -zn =P{X >z = 
oa/2。 因 而 ， 对 于 任意 给 定 的 置信 水 平 1 -a, 我们 有 : 
Pl-zyn<Z<z,y}| =l-a 


并 且 


或 
Pim -zn <u Smt tan be la (19. 2) 


因而 ， 对 于 任意 w， 可 以 对 人 计算 置信 度 为 100(1 - a) 儿 的 双 侧 置信 区 间 。 
类 似 地 ， 如 有 Plz<1.64| =0.95， 则 我 们 有 (参见 图 19-6) 
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p| jy a =a) < 1.64} = 0.95 
oC 


P[m - 1. 64 < }= 0.95 
in” 


并 且 (m -1.640//N, œ) u J 95% 的 单 侧 上 置信 区 间 (one-sided upper confidence inter- 
val) ， 其 定义 了 一 个 下 界 。 一 般 而 言 , u 的 100(1 -a)% 的 单 侧 置 信 区 间 可 通过 下 式 计算 : 





< ee 
Pim tae <u = I a (19.3) 
类 似 地 ， 可 以 计算 定义 上 界 的 单 侧 下 置信 区 间 。 
单位 正 态 Z=N(0,1) 
0.4 一- 一 一 
OBS ON EA T A EEN E E E E 
a TT E E OE 
0.25 TT OT E TPO 
R l EE PAA L REIPA (CFE AE A LAE L EAE IA 














xop --- 
an 


图 19-6 ”单位 正 态 分 布 的 95% 落 在 1. 64 之 前 


在 上 述 各 区 间 中 ， 我 们 使 用 了 o， 即 我 们 假定 方差 是 已 知 的 。 如 果 方 差 未 知 ， 则 我 们 可 
用 样本 方差 
S = 3(2' -m)*/(N-1) 
KERo RAMÉ M x ~N(p, o° IR, (N-1)S’/o? 是 自由 度 为 W -1 的 卡 方 (分 布 ) 。 
我 们 同样 知道 m 和 5 是 相互 独立 的 。 于 是 , VNO - w)/S 是 自由 度 为 W -1 的 上 分 布 ( 参 见 
A.3.7 节 )， 记 作 


Mm =) te (19.4) 


因而 ， 对 任意 的 ae (0，1/2)， 我 们 可 以 使 用 该 ;分布 (1 distribution) 而 非 单位 正 态 分 布 z 确 
定 的 值 来 定义 一 个 区 间 : 


eee < Jw Bw) < twain = l-a 


或 使 用 ti an2, N-1 = ~bar,w-1> 我 们 有 
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<H <M H tan,- 


S SI i 
Pfm taja2,N-l JN ia a 
类 似 地 ， 可 以 定义 单 侧 置信 区 间 。: 分 布 比 单位 正 态 分 布 有 更 大 的 展 宽 ( 较 长 的 尾 ) A 
而 上 分布 给 出 的 区 间 一 般 更 大 ， 考 虑 到 未 知 方差 所 引入 的 附加 的 不 确定 性 的 存在 ， 这 应 该 在 
预料 之 中 。 


19.9 假设 检验 


在 某 些 应 用 中 ， 我 们 可 能 希望 使 用 样本 对 涉及 参数 的 一 些 特定 假设 进行 检验 ， 而 不 是 显 
式 地 估计 某 些 参数 。 例 如 ， 我 们 可 能 希望 检验 均值 是 否 小 于 0. 02， 而 不 是 估计 均值 。 如 果 
随机 样本 与 所 考虑 的 假设 一 致 ， 则 我 们 “接受 ”该 假设 ,否则 ， 我 们 说 它 “ 被 拒绝 ”。 但 是 ， 
当 我 们 做 这 样 的 决定 时 ， 实 际 上 并 非 说 假设 为 真 或 假 ， 而 是 说 在 一 定 的 置信 程度 上 ， 样 本 数 
据 和 假设 看 起 来 是 一 致 的 。 
在 假设 检验 (hypothesis testing) 中 ， 方 法 如 下 : 我 们 定义 一 个 统计 量 ， 如 果 假 设 正 确 ， 
则 该 统计 量 服从 某 一 分 布 。 如 果 从 样本 中 计算 的 统计 量具 有 很 低 的 概率 是 取 自 该 分 布 ， 则 我 
们 拒绝 该 假设 ; 否则 ， 我 们 无 法 拒绝 它 。 
假设 有 一 个 样本 取 自 一 个 均值 凡 未 知 、 方 差 o 已 知 的 正 态 分 布 ， 而 我 们 希望 对 一 个 关 
于 的 假设 进行 检验 ， 例 如， 其 值 是 否 等 于 一 个 指定 的 常数 jo。。 该 假设 记 作 H 并 称 为 原 假 
设 (null hypothesis) 
H, : = po 
相对 的 备 择 假设 为 : 
H, : u # Wo 
m 是 4 的 点 估计 ， 而 且 如 果 m 距离 po 太 远 ， 则 拒绝 Ho 是 合理 的 ， 这 正 是 要 使 用 区 间 佑 
计 的 地 方 。 我 们 以 显著 水 平 (level of significance) a 无 法 拒绝 该 假设 ， 如 果 m 位 于 100(1 - 
a)% 的 置信 区 间 ， 即 如 果 


e (— ZZan) (19. 5) 


如 果 它 落 在 任何 一 侧 的 外 面 ， 则 我 们 拒绝 原 假设 。 这 是 一 个 双 侧 检验 (two-sided test) 。 
如 果 假 设 是 正确 时 我 们 拒绝 了 它 ， 这 就 是 = 表 19-3 第 一 类 错误 、 第 二 类 错误 和 检验 功效 
一 个 第 一 类 错误 (type 1 error) ， 而 在 检验 之 前 决策 


VN(m = Wo) 
oO 



























设 定 的 a 值 定义 了 我 们 可 以 在 多 大 程度 上 容忍 事实 无 法 拒绝 | 拒绝 
第 一 类 错误 ，a 的 通常 取 值 为 0.1、0.05、 真 正确 第 一 类 错误 
{Ei 第 二 类 错误 正确 ( 功效) 


0.01( 参 见 表 19- 3)。 第 二 类 错误 (type Il 
error) 是 如 果真 实 均值 不 等 于 wo 时 我 们 无 法 拒绝 原 假设 。 当 真实 均值 为 4 时 不 拒绝 H 的 
概率 是 的 函数 ， 并 由 下 式 给 出 : 


Blu) = Po- za < (19.6) 


1 -B(u) 称 为 检验 的 功效 函数 ( power function) , Ff AEF 4 u 为 真实 值 时 假设 被 拒绝 的 
概率 。 随 着 4 与 w 接近 ， 第 二 类 错误 的 概率 增加 ， 并 且 我 们 可 以 计算 为 了 能 够 以 足够 的 功 
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效 检 测 出 差 5 = | 人 -Am | ， 需 要 多 大 的 样本 。 
与 备 择 假设 为 凡夫 pm 时 的 双 侧 检验 相反 ， 也 可 以 进行 如 下 形式 的 单 侧 检验 (one- sided 
test) : 
H, : u Spy, H, * u > po 
显著 性 水 平 为 a 的 单 侧 检验 定义 了 界定 于 单 侧 的 100(1 -a)% 和 置信 区 间 ， 为 了 接受 假设 ,，m 
的 值 必须 落 在 该 区 间 内 。 我 们 无 法 拒绝 该 假设 ， 如 果 
Nim- wo) e (- ©,z,) (19.7) 
并 且 落 在 外 边 时 拒绝 。 注 意 ， 原 假设 A, 也 允许 等 式 ， 这 意味 着 当 检验 被 拒绝 时 我 们 只 得 到 
序 信息 。 这 告诉 我 们 应 该 使 用 哪个 单 侧 检验 。 我 们 的 任何 断言 都 应 该 在 A, 中 ， 使 得 检验 的 
拒绝 将 支持 我 们 的 断言 。 
如 果 方 差 未 知 ， 我 们 可 以 像 在 区 间 估 计 中 所 作 的 那样 ， 以 样本 方差 来 替代 总 体 方差 并 利 
用 下 述 事实 : 


人 1 Pcs (19. 8) 
例如 ， 对 于 Hoiu =u MA, wm, FW BPEACE a 接受 假设 ， 如 果 
ge te e (= tan, N-i stew) (19.9) 


这 就 是 双 侧 上 检验 (two-sided ttest) 。 单 侧 t 检验 可 以 类 似 地 定义 。 
19.10 ”评估 分 类 算法 的 性 能 


既然 我 们 已 经 回顾 了 假设 检验 ,我 们 看 看 如 何 将 其 应 用 于 错误 率 检验 。 我 们 将 讨论 分 类 
误差 ， 但 是 只 要 我 们 能 够 为 抽样 分 布 确定 适当 的 参数 形式 ， 同 样 的 技术 就 可 以 用 于 回归 的 均 
方 误 差 、 非 监督 学 习 的 对 数 似 然 、 增 强 学 习 的 期 望 奖励 等 ， 我 们 还 将 讨论 当 找 不 到 这 种 参数 
形式 时 的 非 参 数 检验 。 

我 们 从 错误 率 评估 入 手 ， 在 下 一 节 讨 论 错误 率 比较 。 


19. 10. 1 二 项 检验 


我 们 从 只 有 一 个 训练 集 T 和 一 个 验证 集 Y 的 情形 入手 。 我 们 在 T 了 上 训练 分 类 器 并 在 VY 上 
RRE. RIIA p 表示 分 类 器 产生 一 个 误 分 类 错误 的 概率 。 我 们 不 知道 p， 要 对 它 进行 估计 
或 对 关于 它 的 假设 进行 检验 。 对 于 来 自 验证 集 Y 的 索引 号 为 上 的 实例 ， 令 x' 表示 分 类 器 决策 
的 正确 性 : * 是 一 个 0/1 伯 努 利 随机 变量 ， 当 分 类 器 产生 一 次 错误 时 它 取 值 1， 而 当 分 类 器 
正确 时 它 取 值 0。 二 项 随机 变量 式 表 示 错 误 的 总 数 : 


X= Da 
我 们 想 检验 错误 的 概率 p 是 否 小 于 或 等 于 我 们 指定 的 某 个 什 po: 


Ho : p S Po 5 H,: p > py 
如 果 错 误 的 概率 为 pp， 则 分 类 器 在 N 次 分 类 中 犯 7 次 错误 的 概率 为 : 
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P|X =j} = Ge - p)“ 
如 果 我 们 看 到 和 =e 个 或 更 多 错误 的 概率 很 小 ， 则 拒绝 p Sp 是 合理 的 。 即 二 项 检验 
(binomial test) 拒绝 该 假设 ， 如 果 


PiX ze} = VS Cipi(1 —-p,)"* <a (19. 10) 
其 中 ,a 是 显著 性 ， 例 如 为 0. 05。 


19. 10. 2 近似 正 态 检 验 


WR p 是 错误 的 概率 ， 则 我 们 的 点 估计 是 5 = X/N, TÆ, WR P E p KRS, WEH 
原 假设 是 合理 的 。 多 大 才 算 足够 大 由 /的 选 样 分 布 和 显著 性 a 给 定 。 

因为 是 服从 相同 分 布 的 独立 随机 变量 之 和 ， 依 据 中 心 极 限定 理 ， 对 于 大 的 入 值 ，X/N 
近似 服从 均值 为 Po. 方差 为 po(1 -po) 的 正 态 分 布 。 于 是 

X/N -po 
VPoll - po)/N 

其 中 ~ 表示 “近似 服从 分 布 "。 于 是 ,使 用 式 (19.7) ， 当 六 =e 时 ， 如 果 上 式 的 值 大 于 z。， 则 
近似 正 态 检验 (approximate normal test) 拒绝 原 假设 。z 0; 的 值 是 1.64。 只 要 NN 的 值 不 是 太 小， 
FH p 的 值 不 是 非常 接近 于 0 或 1， 这 个 近似 将 很 有 效 ; 作为 一 种 经 验 法 则 ,我们 要 求 Wp 二 
5, JF A N(1 -p) 25. 


~Z (19.11) 


19. 10.3 tae 


前 面 讨论 的 两 种 检验 方法 都 使 用 一 个 验证 集 。 如 果 在 天 对 训练 集 和 验证 集 上 运行 算法 天 
次 ， 则 我 们 在 个 验证 集 上 得 到 个 错误 百分比 p;，i=1,，…，K。 如 果 在 T; 上 训练 的 分 类 
器 对 Y; 中 的 实例 1 产生 了 一 次 误 分 ， 则 令 x; 为 1; 否则 令 x; 为 0。 于 是 





2" 
Pi = N 
由 于 有 
之 2 (P: - m)’ 
a PT 
根据 式 (19.8) ， 我 们 有 
nee ey (19. 12) 


如 果 上 式 的 值 大 于 tx_,， 则 i 检验 拒绝 “分 类 算法 以 显著 性 水 平 a 具有 po 或 更 低 的 错误 率 ” 
的 原 假 设 。 通 常 ，K 取 值 为 10 或 30。 tooss =1.83 T toos =1.70。 


19. 11 比较 两 个 分 类 算法 
给 定 两 个 学 习 算法 和 一 个 训练 集 ， 我 们 想 要 比较 和 检验 这 两 个 算法 所 构建 的 分 类 器 是 否 
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具有 相同 的 期 望 错 误 率 。 
19.11.1 McNemar 检验 
给 定 一 个 训练 集 和 一 个 验证 集 ， 我 们 使 用 两 个 算法 在 训练 集 上 训练 两 个 分 类 器 ， 在 验证 


集 上 对 它们 进行 检验 并 计算 它们 的 误差 。 如 下 所 示 的 相依 表 ( contingeney table) 是 一 个 矩阵 
形式 的 自然 数 数组 ， 表 示 各 种 情况 的 计数 或 频率 : 


eol : 分 类 器 1 错误 分 类 而 分 类 器 2 没有 错误 分 类 的 实例 
个 数 


en : 两 个 分 类 器 都 正确 分 类 的 实例 个 数 








eo: 两 个 分 类 器 都 错误 分 类 的 实例 个 数 





eo: 分 类 器 2 错误 分 类 而 分 类 器 1 没有 错误 分 类 的 实例 
个 数 


在 两 个 分 类 算法 有 相同 的 错误 率 的 原 假 设 下 ， 我 们 期 望 eu =eio， 并 且 二 者 都 等 于 (eol + 
eio)/2。 我 们 有 自由 度 为 1 的 卡 方 统计 量 


( | eo =e |-1)? ae: 


Xi (19. 13) 





eol + eio 


并 且 如 果 这 个 值 大 于 Xess ， 则 McNemar 检验 拒绝 两 个 分 类 算法 以 显著 水 平 a 具有 相同 错误 率 
的 假设 。 对 于 w =0.05, Xo0s,1 = 3.84, 


19. 11.2 K- 折 交叉 验证 配对 检验 


使 用 K- 折 交叉 验证 在 数据 集 上 产生 K 对 训练 集 和 验证 集 。 我 们 使 用 两 个 分 类 算法 在 训 
练 集 Ti(i =1，…， 天 ) 上 训练 并 在 验证 集 Y 上 检验 。 两 个 分 类 器 在 验证 集 上 的 误差 率 分 别 记 
VE pi 和 pi。 

如 果 两 个 分 类 算法 具有 相同 的 错误 率 ， 则 我 们 预期 它们 具有 相同 的 均值 ， 或 等 价 地 说 ， 
它们 的 均值 之 差 为 0。 在 第 i 折 ， 两 个 分 类 器 的 错误 率 之 差 是 p，= pi - pi 。 这 是 配对 检验 
(paired test) ， 即 对 于 每 个 i， 两 个 算法 都 使 用 相同 的 训练 集 和 验证 集 。K 次 比较 之 后 ， 得 到 
一 个 包含 KK 个 点 的 p; 分 布 。 假 定 p; 和 pi 都 是 (近似 ) 正 态 的 ， 则 其 差 p; 也 是 正 态 的 。 原 假设 
为 该 分 布 的 均值 为 0: 

Ho:p=0, Hi wr 
我 们 定义 
Pi 2 (Pi — my” 
i cee 
E u =O 的 原 假设 下 ， 我们 有 一 个 统计 量 ,， 它 是 自由 度 为 K-1 的 :分 布 : 
VK(m-0) _ VK m 
S S 





m 





oe (19. 14) 


因而 ， 如 果 该 值 落 在 区 间 ( - ba2,K-19 ba/2,K-1 ) 之 外 ， 则 K- 折 交 又 验证 配对 1 检验 
(KK-fold cv paired t test) 拒绝 两 个 分 类 算法 以 显著 水 平 a 具有 相同 误差 率 的 假设 。ito 0259 = 
2.26, taos 29 = 2: OS 6 
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如 果 我 们 想 检验 第 一 个 算法 的 错误 率 是 否 比 第 二 个 算法 更 小 ， 则 需要 使 用 单 侧 假设 ， 并 
使 用 单 尾 检验 : i 
Hy: oe 204 H,: pw <0 
如 果 检 验 拒绝 ， 则 我 们 断言 第 一 个 算法 具有 显著 较 小 的 错误 率 就 得 到 了 支持 。 


19.11.3 5x2 交叉 验证 配对 1 检验 


在 Dietterich(1998) 提 出 的 5 x2 交叉 验证 1 检验 中 ， 我 们 进行 五 轮 对 折 交 叉 验证 。 在 每 
一 轮 中 ， 数 据 集 被 划分 为 两 个 大 小 相等 的 集合 。pW 表示 两 个 分 类 器 在 第 i 轮 中 第 j 折 数据 
上 的 错误 率 之 差 ， 其 中 i=1，…，5, j=1,2。 在 第 i 轮 的 平均 为 p; = (vp? +p) 72, 估计 
HEH s = (ps? +p) + (p -p,)’. 

在 两 个 分 类 算法 具有 相同 错误 率 的 原 假 设 下 ，P% 是 两 个 同 分 布 的 比例 值 之 差 ， 而 忽略 
这 些 比例 值 不 相互 独立 的 事实 ，pW” 可 近似 地 被 认为 服从 均值 为 0, 方差 0? 未 知 的 正 态 分 
布 。 于 是 , p? /o 是 近似 单位 正 态 的 。 如 果 假 定 pe， 和 pp! 是 独立 、 正 态 的 (严格 地 说 并 非 
如 此 ， 因 为 它们 的 训练 和 验证 集 并 非 相 互 独立 抽取 的 ) ， 则 s/o? 服从 自由 度 为 1 的 卡 方 分 
布 。 如 果 假 定 每 个 s 是 相互 独立 的 (事实 并 非 如 此 ， 因 为 它们 从 相同 的 可 用 数据 集 计 算得 
到 ) ， 则 它们 的 和 服从 自由 度 为 5 的 卡 方 分 布 : 








5 
ys 
M = 于 ~ X5 
oC 
并 且 
(1) (1) 
Th A pe ey (19. 15) 
VM/5 


Es 

给 出 了 自由 度 为 5 的 1 统计 量 。 如 果 该 统计 量 的 值 落 在 区 间 ( -is， toris) 之 外 ， 则 5 x2 
交 又 验证 1 检验 (5 x2 cv paired 1 test) 拒绝 两 个 分 类 算法 以 显著 性 水 平 a 具有 相同 的 错误 率 
的 假设 。 io.oz5 5 =2; Sis 


19.11.4 5x2 交叉 验证 配对 三 检验 


我 们 注意 到 式 (19. 15) 中 的 分 子 ps? 是 任意 的 ; 实际 上 ， 有 10 个 不 同 的 值 可 当 作 分 子 ， 
Bp? , fal, 2, i=1, =, 5, 产生 10 个 可 能 的 统计 量 : 
(i) 


fot (19. 16) 


5 
LY si/5 
i=l 


Alpaydin(1999) 提 出 了 5 x2 交叉 验证 :检验 的 扩展 ， 组 合 10 个 可 能 的 统计 量 的 结果 。 
UE p? /o ~z， 则 有 (po )?/o? -Xi ， 并 且 它 们 的 和 是 自由 度 为 10 的 卡 方 分 布 : 





dy? 


了 


2 
(pi f 
N = =I 2 ~ X10 
Cr 
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将 上 式 作 为 式 (19. 15 ) 的 分 子 ， 得 到 的 统计 量 为 两 个 卡 方 分 布 随机 变量 的 比值 。 两 个 变 
量 分 别 除 以 它们 的 自由 度 得 到 第 一 自由 度 为 10， 第 二 自由 度 为 5 的 下 分 布 (参见 A. 3. 8 节 ) : 
> 2 (pr)? 
go. ee ee ig (19. 17) 
2 > s 
如 果 该 值 大 于 Faos, WIS x2 交叉 验证 配对 下 检验 (5 x2 cv paired F test) 拒 绝 两 个 分 类 算法 
以 显著 性 水 平 a 具有 相同 错误 率 的 假设 。Fo ,os =4. 74。 


19.12 ”比较 多 个 算法 : 方差 分 析 


在 很 多 情况 下 ， 有 多 个 算法 ,我 们 希望 比较 它们 的 期 望 误差 。 给 定 工 个 算法 ,我 们 在 K 
个 训练 集 上 对 它们 进行 训练 ， 每 个 算法 产生 天 个 分 类 器 ， 而 后 在 天 个 验证 集 上 进行 检验 并 
记录 相应 的 错误 率 。 这 样 产生 了 上 组 ,每 组 K 个 值 。 于 是 ,问题 是 比较 这 工 个 样本 差异 的 统 
计 显 著 性 。 这 是 一 个 具有 单个 因素 、 荆 个 水 平 (学 习 算 法 ) 的 实验 ， 对 每 个 水 平 重 复 天 次 。 

在 方差 分 析 ( analysis of variance, ANOVA) 中 ， 我 们 考虑 工 个 独立 的 样本 ， 每 个 大 小 为 
K, WRAS um 和 未 知 公共 方差 o 的 正 态 随机 变量 组 成 : 

Xi ~ Npso) j=l, Li = 1,0, K 
我 们 想 对 “所 有 均值 相等 ”的 假设 Ho 进行 检验 : 
:pp =p = =e, HH? 至 少 在 一 对 (7,s) Low, Am, 

对 多 个 分 类 算法 的 错误 率 进行 比较 就 属于 这 种 情况 。 我 们 有 工 个 分 类 算法 ,并且 有 其 在 
KK 个 验证 折 上 的 错误 率 。X; 是 分 类 算法 j 在 第 i 折 数 据 所 训练 的 分 类 器 的 验证 错误 数 。 每 个 
X; 都 是 二 项 的 并 且 是 近似 正 态 的 。 如 果 H 未 被 拒绝 ， 则 我 们 在 这 工 个 分 类 算法 的 误差 率 之 
间 找 不 到 显著 差别 。 因 而 ， 这 是 我 们 在 19. 11 节 所 看 到 的 对 两 个 分 类 算法 进行 比较 的 检验 方 
法 的 推广 。 这 工 个 分 类 算法 可 能 不 同 或 使 用 不 同 的 超 参数 ， 如 多 层 感知 器 的 隐藏 单元 数 ，k- 
nn 的 近邻 数 等 。 

方差 分 析 方法 导出 两 个 关于 er 的 估计 。 第 一 个 估计 只 有 在 A, 为 真 的 时 候 才 为 真 ， 而 第 
二 个 估计 始终 是 一 个 有 效 估计 ， 无 论 H 是 否 为 真 。 如 果 两 个 估计 显著 不 同 ， 则 方差 分 析 拒 
绝 H,， 即 拒绝 工 个 样本 取 自 相 同 的 总 体 。 

第 一 个 关于 o 的 估计 有 效 ， 仅 当 假设 为 真 ， 即 仅 当 j =e, j=1, =, Lo WR X~ 
N(p, °), WAFIY 


K X; 

m; = 2 3 
也 是 正 态 的 ， 均 值 为 jy、 方 差 为 o*/K。 如 果 假 设 为 真 ， 则 上 (=1，…, 工 ) 是 工 个 取 自 
NW (1j，o”/K) 的 实例 。 于 是 ， 它 们 的 均值 和 方差 分 别 为 : 


> (mi - m)? 
i DAN PE A 
H L-1 


L 
他 四 
m = E 


iti, o KAE K+ S, B 
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=xy oer (rm, oat (19. 18) 


每 个 m; 都 是 正 态 的 ， 并 且 ( 工 - a pe E 因而 ,我 
们 有 


> (m; - m)? a ye (19. 19) 
> o/k Xr-1 : 


我 们 定义 组 间 平 方 和 SS, 为 
SS, = KY (m; - m)? 
Alii, “4H, 为 真 时 ， 我 们 有 


SS 
= ~ Xin (19. 20) 
o 


第 二 个 关于 o 的 估计 是 组 方差 5; 的 平均 值 。 组 方差 定义 为 


2 (Xs 一 mh) 
i K-1 
而 它们 的 平均 值 为 : 
A2 L S; PA (X; -—m,)’ 
a = (19. 21) 
我 们 定义 组 内 平方 和 SS, 为 


SS, = $, L (Xs m) 
回忆 一 下 ， 对 正 态 样 本 ， 我 们 有 
(K -1) = ~ Xk- 
ion 
并 且 卡 方 分 布 之 和 仍然 是 卡 方 分 布 ， 我们 有 
(K -1) > =; ~ XK- 1) 


因而 





T ~ Mk (19. 22) 
oC 


于 是 ， 我 们 的 任务 是 比较 两 个 方差 是 否 相等 ， 这 可 以 通过 检查 它们 的 比值 是 否 接近 于 1 
来 实现 。 两 个 独立 卡 方 随机 变量 分 别 除 以 其 相应 的 自由 度 的 比值 是 一 个 服从 分布 的 随机 
Asti, ATM Hy 为 真 时 ， 我 们 有 
SS,/o? SS,/o° SS,/(L-1) a, 

ae ea ~ Pe 

对 于 任意 给 定 的 显著 性 水 平 值 a， 如 果 该 统计 量 的 值 大 于 F, in, Mi LMK 
算法 具有 相同 的 期 望 错误 率 的 假设 。 

注意 ， 如 果 两 个 估计 显著 不 一 致 ， 则 我 们 拒绝 也。 如 果 Hy KRE, N m, 在 mm 附近 的 








(19. 23) 
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方差 一 般 比 H 成 立时 大 。 因 此 ， 如 果 H 不成 立 ， 则 第 一 个 估计 cx; 将 是 or 的 过 高 估计 ， 而 
该 比值 将 大 于 1。 对 于 a=0.05, L=5 入 =10，Fo0s.4ss =2-6. WR X CE m 附近 以 方差 or 
变化 ， 那 么 如 果 Ho 成 立 ， 则 m, 在 m 附近 将 以 方差 o ”VK 变化 。 看 来 ， 如 果 它 们 变化 很 大 ， 
则 应 该 拒绝 Hy, VAD m, E m 附近 的 位 移 很 难 再 用 某 种 不 断 增 加 的 噪声 解释 。 
方差 分 析 的 名 字源 于 将 数据 中 的 总 变化 划分 成 它 的 分 量 。 
SS, = YY (X; -m (19. 24) 


SS, 除 以 它 的 自由 度 天 ' 工 -1 存在 大工 个 数据 点 ， 我 们 损失 了 一 个 自由 度 ， 因 为 严 是 
固定 的 ) 给 出 万 的 样本 方差 。 可 以 证 明 (习题 5) ， 总 平方 和 可 以 分 解 成 组 间 平 方 和 与 组 内 平 
方 和 

SS, = SS, + SS, (19. 25) 

ANOVA ( 7224} 67) 的 结果 在 如 表 19-4 所 示 的 ANOVA 表 中 。 这 是 方差 的 基本 一 路 (one- 
way) 分 析 ， 其 中 只 有 一 个 因素 ， 例 如 学 习 算 法 。 我 们 可 以 考虑 用 多 个 因素 实验 ， 例 如， 一 
个 因素 可 以 是 分 类 算法 ， 另 一 个 因素 是 分 类 之 前 使 用 的 特征 提取 算法 ， 而 这 是 一 个 具有 相互 
影响 的 双 因 素 实 验 (two-factor experiment with interaction ) 。 

如 果 假 设 被 拒绝 ， 我 们 只 知道 工 个 分 组 之 间 存 在 某 种 差异 ， 但 是 我 们 并 不 知道 差异 在 何 
处 。 为 此 ,我 们 做 事后 检验 (posthoc testing)， 即 一 组 涉及 分 组 的 子 集 的 额外 检验 ， 例 如 
逐 对 。 


表 19-4 单个 因素 模型 的 方差 分 析 (ANOVA) 表 










平方 和 
SS, = KÝ, (m; - m)? 
J 


SS, = YY OG- 9)” 
SS7 =} VU, -m)? 
JO K 





MS, 
MS 


组 间 





组 内 





费 希 尔 的 最 小 方差 检验 (least square difference test, LSD) 以 逐 对 的 方式 比较 分 组 。 对 于 
每 个 分 组 ,我们 有 m; ~ Nos = MS,/K) , m; -m;~ ui -pw,20%) 。 于 是 ， 在 原 假设 
Hy: =m; F, 我 们 有 

pat ey 
ie: L(K-1) 

如 果 |) > taney» WRI Ho。， 支 持 备 择 假设 H: px jy。 类 似 地 ， 可 以 定义 
单 边 检验 ， 以 找 出 逐 对 的 顺序 。 

当 我 们 做 大 量 实验 以 提取 结论 时 ， 这 称 为 多 重 比 较 (multiple comparisons) ， 并 且 需 要 记 
住 : 如 果 我 们 以 显著 性 水 平 a 对 了 个 假设 进行 检验 ， 则 至 少 有 一 个 假设 不 正确 地 被 拒绝 的 
概率 至 多 为 Te。 例如 ， 均 以 95% 的 单个 置信 区 间 进 行 计 算 的 6 个 置信 区 间 同 时 正确 的 概率 
至 少 为 70% 。 因 而 ， 为 了 确保 整体 置信 区 间 至 少 为 100(1 - a) ， 单 个 置信 区 间 应 当 设置 为 
100(1 -a/T)， 这 称 为 Bonferroni 校正 (Bonferroni correction) o 

有 时 ， 可 能 出 现 这 种 情况 : ANOVA 拒绝 了 原 假设 ， 而 事后 逐 对 检验 都 找 不 到 显著 的 差 
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别 。 在 这 种 情况 下 ， 我 们 的 结论 是 : 均值 之 间 存 在 差别 ， 但 是 我 们 需要 更 多 的 数据 ， 以 便 指 
出 差别 到 底 在 何 处 。 

注意 ， 分 析 的 主要 开销 是 在 个 训练 集 和 验证 集 上 对 工 个 分 类 算法 进行 训练 和 检验 。 
一 旦 训练 、 检 验 完成 并 且 结 果 存 储 在 一 张 K xL 的 表 中 ， 则 从 表 中 进行 方差 分 析 或 计算 两 两 
比较 检验 统计 量 的 开销 就 相对 很 小 。 


19. 13 在 多 个 数据 集 上 比较 


假定 我 们 想 在 多 个 数据 集 而 不 是 在 一 个 数据 集 上 比较 两 个 或 多 个 算法 。 这 与 前 面 的 不 同 
之 处 在 于 : 依赖 于 其 归纳 偏 倚 与 问题 匹配 程度 的 算法 在 不 同 的 数据 集 上 将 会 不 同 ， 并 且 不 能 
再 认为 不 同 数据 集 上 的 误差 值 在 平均 准确 率 附 近 是 正 态 分 布 的 。 这 意味 看 我 们 上 一 节 讨 论 的 
基于 二 项 分 布 是 近似 正 态 分 布 的 参数 检验 不 再 能 用 ， 而 我 们 需要 借助 于 非 参 数 检验 (non- 
parametric test) 。 这 种 检验 的 优点 是 ， 我 们 还 可 以 使 用 它们 比较 其 他 非 正 态 的 统计 量 ， 例 如 ， 
训练 时 间 、 自 由 参数 的 个 数 等 。 

对 于 稍微 偏离 正 态 分 布 的 情况 ， 参 数 检验 一 般 是 鲁 棒 的 ， 特 别 是 当 样 本 很 大 时 。 非 参数 
检验 不 受 分 布 的 限制 ， 但 不 太 有 效 ; 即 如 果 两 种 检验 都 可 以 使 用 ， 则 优先 选择 参数 检验 。 为 
了 取得 相同 的 功效 ， 对 应 的 非 参 数 检验 需要 更 大 的 样本 。 非 参数 检验 并 不 假定 知道 基本 总 体 
的 分 布 ， 而 只 假定 值 可 以 比较 或 是 有 序 的 ， 并 且 正 如 我 们 将 看 到 的 是 ， 非 参数 检验 使 用 这 种 
序 信 息 。 

当 我 们 将 一 个 算法 在 许多 不 同 的 数据 集 上 训练 后 ， 该 算法 在 这 些 数 据 集 上 误差 的 平均 值 
不 是 一 个 有 意义 的 值 ， 并 且 我 们 不 能 使 用 这 种 值 ， 例 如 ， 比 较 两 个 算法 4 和 B。 为 了 比较 两 
个 算法 ， 唯 一 可 以 使 用 的 信息 是 ， 是 否 在 任意 数据 集 上 4 be B 准确 ; 于 是 ,我 们 可 以 统计 4 
比 B 准确 的 次 数 ， 并 检查 这 是 否 可 能 是 偶然 的 ， 它 们 是 否 确 实 同样 准确 。 当 有 更 多 算法 时 ， 
我 们 将 考察 被 不 同 算法 训练 的 学 习 器 的 平均 等 级 (rank) 。 非 参数 检验 基本 上 使 用 这 些 等 级 数 
据 ， 而 非 绝对 的 数值 。 

在 继续 深入 讨论 这 些 检验 之 前 ， 应 该 强调 的 是 ， 在 各 种 各 样 的 应 用 上 比较 算法 的 错误 率 
是 没有 意义 的 。 因 为 不 存在 "最 佳 学 习 算法 "这 种 事 ， 因 此 这 种 检验 不 会 是 令 人 信服 的 。 然 
而 ,我 们 可 以 在 相同 应 用 的 大 量 数据 集 或 版 本 上 比较 算法 。 例 如 ， 对 于 人 脸 识别 ， 我 们 可 以 
有 许多 不 同 的 数据 集 ， 但 具有 不 同 的 性 质 (分 辩 率 、 光 照 、 研 究 对 象 数 等 ) ， 而 我 们 可 以 使 
用 非 参 数 检验 在 这 些 数据 集 上 比较 算法 。 数 据 集 的 不 同性 质 使 得 我 们 不 可 能 将 来 自 不 同 数据 
集 的 图 像 混在 一 起 ， 形 成 单个 数据 集 ， 但 是 我 们 可 以 在 不 同 的 数据 集 上 分 别 训练 算法 ， 分 别 
得 到 等 级 ， 并 组 合 这些 等 级 得 到 总 体 决策 。 


19. 13.1 比较 两 个 算法 


假定 我 们 想 比 较 两 个 算法 。 我 们 采用 逐 对 方式 在 个 不 同 的 数据 集 上 训练 和 验证 它们 ; 
即 除 不 同 的 算法 之 外 ， 所 有 的 条 件 都 应 该 是 一 样 的 。 我 们 得 到 结果 e 和 ei; ， 并 且 如 果 我 们 
在 每 个 数据 集 上 都 使 用 天 折 交 又 验证 ， 则 这 些 是 天 个 值 的 均值 或 中 位 数 。 符 号 检验 (sign 
test) 基于 如 下 思想 : 如 果 两 个 算法 具有 相同 的 误差 ， 则 在 每 个 数据 集 上 ， 第 一 个 算法 的 误差 
比 第 二 小 的 概率 为 1/2 ， 因 而 我 们 预料 第 一 个 算法 在 N/2 个 数据 集 上 获胜 ， 我 们 定义 
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假定 我 们 想 检 验 
Hy sy 2 bo F Hi ip, < 
如 果 原 假设 是 正确 的 ， 则 在 NN 次 试验 上 是 二 项 的 ， 其 中 p =1/2。 假 设 第 一 个 算法 在 
X =e 个 数据 集 上 获胜 。 于 是 ， 当 确实 有 p=1/2 时 ， 获 胜 的 次 数 为 。 或 更 少 的 概率 为 
Pix<o = 30(2) (z) 
如 果 这 个 概率 值 太 小 ， 即 小 于 a， 则 我 们 拒绝 原 假设 。 如 果 出 现 平局 ， 则 我 们 将 它们 同等 地 
划 归 两 边 ; 也 就 是 说 ， 如 果 有 1 次 平局 ， 则 我 们 将 i/2 加 到 e 上 (如 果 上 是 奇数 ， 则 我 们 忽略 
一 次 ,并 将 N 减 1)。 
在 检验 
Hy: < py 与 H, u > by 
H, WR P|XSel<a, WME A. 
对 于 双边 检验 
Ho:p = be Ẹ Ayre, * be 
MR e 太 小 或 太 大 ， 则 我 们 拒绝 原 假设 。 当 ee < N/2 时 ， 如 果 2P1X<e<a， 则 我 们 拒绝 原 
假设 ; 当 e> M2 时 ,如果 2P1Xel a， 则 我 们 拒绝 原 假设 一 一 我 们 需要 找 出 对 应 的 尾 并 
将 其 乘 以 2， 因 为 这 是 双边 检验 。 
正如 我 们 在 前 面 所 讨论 的 ， 非 参数 检验 可 以 用 来 比较 任意 度量 ， 例 如 训练 时 间 。 在 这 种 
情况 下 ， 我 们 看 到 非 参 数学 习 的 优点 : 它 使 用 序 ， 而 不 是 绝对 的 平均 值 。 假 设 我 们 在 10 个 
数据 集 上 比较 两 个 算法 ， 其 中 9 个 数据 集 很 小 ， 并 且 两 个 算法 的 训练 时 间 都 以 分 钟 计 ， 而 一 
个 数据 集 很 大 ， 其 训练 时 间 以 天 计 。 如 果 我 们 使 用 参数 检验 ， 并 取 训 练 时 间 的 平均 值 ， 则 一 
个 大 数据 集 就 左右 了 决策 ;而 当 我 们 使 用 非 参 数 检验 并 分 别 在 每 个 数据 集 上 比较 时 ， 使 用 序 
具有 在 每 个 数据 集 上 规范 化 的 效果 ， 因 此 有 助 于 我 们 得 到 和 鲁 棒 的 决策 。 
我 们 也 可 将 符号 检验 用 作 一 个 样本 的 检验 ， 例 如 ， 不 是 将 凡 与 第 二 个 总 体 的 均值 比较 ， 
而 是 将 它 与 一 个 常数 jo 比较 ， 来 检查 算法 在 所 有 数据 集 上 的 平均 误差 是 否 小 于 2%。 我 们 
可 以 简单 地 通过 如 下 方法 来 做 这 件 事 : 将 常量 ww 取代 第 二 个 样本 的 所 有 观测 ， 并 使 用 前 面 
的 过 程 ; 即 我 们 将 统计 误差 大 于 和 小 于 0. 02 的 次 数 ， 并 检查 在 原 假 设 下 这 是 否 太 不 可 能 。 
对 于 较 大 的 Y， 可 以 使 用 正 态 分 布 来 近似 二 项 分 布 (习题 6) ， 但 实践 中 ， 数 据 集 的 个 数 可 能 
小 于 20。 注 意 ， 符 号 检验 是 在 总 体 中 位 数 上 的 检验 ， 如 果 分 布 是 对 称 的 ， 则 中 位 数 等 于 
均值 。 
符号 检验 只 使 用 差 的 符号 ， 而 不 是 差 的 量 值 ， 但 是 我 们 可 能 面 对 这 样 一 种 情况 : 当 第 一 
个 算法 获胜 时 ， 总 是 大 幅度 赢 ; 而 当 第 二 个 算法 获胜 时 ， 总 是 勉强 赢 。Wilecoxon 符号 秩 检验 
( Wilcoxon signed rank test) 同时 使 用 符号 和 差 的 量 值 ， 其 方法 如 下 : 
假设 除了 差 的 符号 之 外 ， 我 们 还 计算 m = |ei -ei | ， 并 且 将 它们 排序 ， 使 得 最 小 的 m, 
的 秩 为 1， 次 最 小 的 秩 为 2， 以 此 类 推 。 如 果 出 现 平 局 ， 则 它们 的 秩 取 它们 稍微 不 同时 得 到 
的 平均 值 。 例 如 ， 如 果 这 些 差 值 为 2、1、2、4， 则 秩 为 2.5、1、2.5、4。 然 后 ， 我 们 计算 
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符号 为 正 的 所 有 秩 的 和 w,， 符 号 为 负 的 所 有 秩 的 和 w.。 

Mw, a. nt, ATTRA ow, Sm, MRAR u >o RMA, A 
w ,和 w_ 都 很 小 ， 即 当 w =min(w,，w_ ) 很 小 时 ， 可 以 拒绝 双边 假设 =w ， 而 接受 备 择 假 
Bop, * mo aii ,符号 秩 检 验 的 关键 值 制作 成 表 ， 而 当 入 二 20 时 ， 可 以 使 用 正 态 分 布 来 
近似 。 


19. 13.2 比较 多 个 算法 


Kruskal- Wallis 检验 ( Kruskal- Wallis test) 是 ANOVA 的 非 参 数 版 本 ， 是 秩 检验 的 多 样本 推 
广 。 给 定 MN =ZxwN 个 观测 ， 例 如 给 定 工 个 算法 在 N 个 数据 集 上 的 错误 率 XC =1, …, L, j 
=1，…，N) ， 我们 将 它们 从 小 到 大 排序 ， 并 赋予 它们 1 ~M 的 秩 R;; 出现 平局 时 还 是 取 平 
均值 。 如 果 原 假设 
Ho:p = pn = = 
成 立 ， 则 算法 i 的 秩 的 平均 值 大约 在 1 与 的 中 间 ， 即 (M+1)/2。 我 们 将 算法 i 样本 平均 
秩 记 做 R:。， 并 且 在 平均 秩 看 上 去 远离 中 间 时 拒绝 该 假设 。 检 验 统计 量 


le sty, [Re SEER) 


是 自由 度 为 工 -1 的 近似 卡 方 分 布 ， 并 且 当 该 统计 量 的 值 超 过 x。 时， 我 们 拒绝 原 假设 。 

与 参数 方差 检验 一 样 ， 如 果 原 假设 被 拒绝 ， 则 我 们 可 以 做 事后 检验 ， 对 秩 的 逐 对 比较 进 
行 检查 。 一 种 做 这 种 检查 的 方法 是 Tukey 检验 (tukey test) ， 它 使 用 研究 者 的 范围 统计 量 ( stu- 
dentized range statistic ) 


Rox ai Rain 
CO» 

其 中 ，R,w 和 Ri 分 别 是 L 个 ( 秩 的 ) 均 值 中 的 最 大 和 最 小 均值 ， 而 0 是 组 秩 平 均值 附近 的 
秩 的 平均 方差 。 我 们 拒绝 组 i 与 组 j 具有 相同 的 秩 ， 接 受 它 们 具有 不 同 秩 的 备 择 假 设 ， 如 果 
(Ri. - R.) >qa(L,L(K -1))o, 

其 中 q (25，L(K-1) ) 被 制 表 。 也 可 以 定义 单 边 检验 ， 以 按 平均 秩 对 算法 排序 。 

Demsar(2006) 提出 使 用 CD( critical difference, #32) 图 进行 可 视 化 。 在 1 -的 刻度 
上 ， 我 们 标记 平均 值 R. ， 并 在 组 之 间 绘制 长 度 由 关键 差 9,(L，L(K -1) )o, 给 定 的 直线 ， 
使 得 直线 连接 差 不 统 计 显著 的 组 。 


19.14 注释 


涉及 实验 设计 的 材料 采用 Montgomery 2005 的 讨论 ， 这 里 改写 成 适合 机 器 学 习 的 形式 。 
关于 区 间 估 计 、 假 设 检验 和 方差 分 析 的 更 为 详细 的 讨论 可 以 在 任何 统计 学 导论 书籍 中 找到 ， 
如 Ross 1987, 

Dietterich( 1998) 讨论 了 各 种 统计 检验 方法 ， 并 在 多 个 应 用 上 使 用 不 同 的 分 类 算法 对 其 进 
行 了 比较 。Fawcett(2006 ) 给 出 了 ROC 使 用 和 AUC 计算 的 综述 。Demsar(2006 ) 给 出 了 在 多 个 
数据 集 上 比较 分 类 方法 的 统计 检验 综述 。 

当 我 们 比较 两 个 或 多 个 算法 时 ， 如 果 有 具有 相同 错误 率 的 原 假设 未 被 拒绝 ， 则 我 们 选用 最 
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简单 的 ， 即 空间 和 时 间 复 杂 度 最 小 的 算法 。 也 就 是 说 ， 如 果 数 据 在 错误 率 方面 并 不 偏好 任何 
一 个 分 类 算法 的 时 候 ， 则 我 们 使 用 我 们 的 先 验 人 和 偏好。 例如， 如果 我 们 对 一 个 线性 模型 和 一 个 
非 线 性 模型 进行 比较 ， 并 且 检 验 没有 拒绝 二 者 具有 相同 的 期 望 错误 率 ， 则 我 们 将 选择 更 为 简 
单 的 线性 模型 。 即 使 检验 拒绝 了 这 样 的 假设 ， 在 选择 算法 的 时 候 ， 错 误 率 也 仅仅 是 一 个 标 
准 。 其 他 标准 ， 如 训练 的 (空间 或 时 间 ) 复杂 度 、 检 验 的 复杂 度 和 可 解释 性 ， 在 实际 应 用 中 
都 可 能 是 更 重要 的 标准 。 

Yildiz 和 Alpaydin (2006 ) 给 出 了 如 何在 MultiTest 算法 中 使 用 事后 检验 结果 产生 全 序 。 我 
A LCL -1)/2 次 单 边 逐 对 检验 来 对 工 个 算法 定 序 ， 但 是 这 些 检验 很 可 能 不 产生 全 序 ， 而 
只 产生 偏 序 。 缺 失 的 链 可 以 使 用 先 验 复杂 度 信息 来 补充 ， 以 便 得 到 全 序 。 使 用 误差 和 复杂 度 
这 两 类 信息 ， 拓 扑 排序 可 以 产生 算法 的 序 。 

还 有 一 些 检验 可 以 检查 对 比 (contrast) 。 假 设 1 和 2 是 神经 网 络 方法 ， 而 3 和 4 是 模糊 罗 
辑 方法 。 我 们 可 以 检验 1 和 2 的 平均 情况 是 否 不 同 于 3 和 4 的 平均 情况 ， 因 此 可 以 更 一 般 地 
比较 诸 方法 。 

男 一 个 需要 注意 的 要 点 是 ， 我 们 只 对 误 分 类 率 进行 评估 或 比较 。 这 意味 着 从 我 们 的 观点 
出 发 ， 所 有 的 误 分 类 都 具有 相同 的 代价 。 如 果 事 实 并 非 如 此 ， 则 我 们 的 检验 应 当 基 于 风险 ， 
将 一 个 合适 的 损失 函数 考虑 在 内 。 这 一 方面 的 工作 还 不 是 很 多 。 类 似 地 ， 这 些 检验 也 应 当 从 
分 类 推广 到 回归 ， 使 得 可 以 对 回归 算法 的 均 方 误差 进行 评估 ， 或 可 以 对 两 个 回归 算法 的 误差 
进行 比较 。 

在 比较 两 个 分 类 算法 时 ， 请 注意 我 们 只 是 对 它们 是 否 具 有 相同 的 期 望 错误 率 进行 检验 。 
如 果 是 ， 这 也 不 意味 着 它们 产生 相同 的 错误 。 这 是 我 们 在 第 17 章 使 用 的 想法 : 如 果 不 同 的 
分 类 器 产生 不 同 的 错误 ， 则 我 们 可 以 通过 组 合 多 个 模型 来 提高 准确 率 。 


19.15 “习题 


1. 在 一 个 两 类 问题 中 ， 假 设 我 们 有 损失 和 矩阵， 其 中 Au =Ay =0, A =1， 而 Ai =a. 作为 
a 的 函数 ， 确 定 决 策 阔 值 。 

2. 我 们 可 以 通过 从 一 个 伯 努 利 分 布 中 抽取 样本 来 模拟 一 个 错误 概率 为 p 的 分 类 器 。 进 行 此 
模拟 ， 并 对 po。e (0，1) 进 行 二 项 检验 、 近 似 正 态 检验 和 1 检验。 对 不 同 的 p 值 ， 将 这 些 
检验 进行 至 少 1 000 次 并 计算 拒绝 原 假设 的 概率 。 当 po = 时 ， 你 认为 拒绝 的 期 望 概率 是 
多 少 ? 

3. Bx ~N (u, P), IEP o CA IBI Al: wep AH, : u< po 如 何 进行 检验 ? 

4. 及- 折 交 叉 验 证 上 检验 只 对 错误 率 的 相等 性 进行 检验 。 如 果 假 设 被 拒绝 ， 我 们 并 不 知道 哪 
个 分 类 算法 具有 更 低 的 错误 率 。 我 们 如 何 对 第 一 个 分 类 算法 的 错误 率 不 比 第 二 个 分 类 算 
法 更 高 的 假设 进行 检验 ? 提示 : 需要 对 Ho: w<O0 和 而 :内 >0 进行 检验 。 

. 证 明 总 平方 和 可 以 分 解 成 组 间 平 方 和 和 组 内 平方 和 : SS, = SS, + SS,。 

. 对 符号 检验 ， 使 用 正 态 分 布 近似 二 项 分 布 。 

. 假设 有 3 个 分 类 算法 。 如 何 将 其 从 最 好 到 最 差 进 行 排序 ? 

. 如 果 我 们 有 算法 4 的 两 个 变种 ,算法 B 的 三 个 变种 。 考 虑 它们 的 所 有 变种 ， 如 何 比 较 算 

法 4 和 算法 B 的 总 体 准 确 率 ? 
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9. 提出 一 种 合适 的 检验 ， 比 较 两 个 回归 算法 的 误差 。 
10. 提出 一 种 合适 的 检验 ， 比 较 两 个 增强 学 习 算法 的 期 望 奖 励 。 
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我 们 简略 回顾 概率 论 原理 、 随 机 变量 概念 和 实例 分 布 。 
A. 1 概率 论 原理 


随机 试验 是 其 结果 不 能 提前 以 确定 的 方式 预测 的 试验 (Ross 1987; Casella 和 Berger 
1990) 。 所 有 可 能 的 结果 的 集合 称 作 样本 空间 S。 一 个 样本 空间 是 离散 的 ， 如 果 它 由 结果 的 
有 限 ( 或 可 数 无 限 ) 集 组 成 ; 否则 是 连续 的 。5 的 任意 子 集 已 是 一 个 事件 。 事 件 是 集合 ， 并 且 
我 们 可 以 谈论 它们 的 补 、 交 、 并 等 。 

概率 的 一 种 解释 是 频率 (frequency)。 当 一 个 试验 在 完全 相同 的 条 件 下 不 断 重复 时 ， 对 于 
任意 事件 E， 结 果 在 E 中 的 次 数 所 占 的 比例 趋向 于 某 个 常数 值 。 这 个 常数 极限 频率 是 事件 的 
概率 ， 而 我 们 把 它 记 作 P(E)。 

有 时 ， 概 率 可 解释 成 可 信 程 度 ( degree of belief) 。 例 如 ， 当 我 们 说 土耳其 赢得 2010 年 足 
球 世 界 杯 冠军 的 概率 时 ， 我 们 并 不 是 指出 现 的 频率 ， 因 为 2010 年 足球 世界 杯 只 进行 一 次 ， 
并 且 ( 在 写本 书 时 ) 它 还 未 进行 。 在 这 种 情况 下 ， 我们 的 意思 是 我 们 主观 相信 该 事件 出 现 的 
程度 。 由 于 是 主观 的 ， 因 此 对 同一 事件 ,不 同 的 人 可 能 指派 不 同 的 概率 。 


A. 1.1 概率 论 公 理 


公理 确保 随机 试验 中 指派 的 概率 可 以 解释 成 相对 频率 ， 并 且 这 些 指派 符合 我 们 对 相对 频 
率 之 间 关 系 的 直观 理解 ; 
1) 0<P(E) <1, MRE, 是 不 可 能 出 现 的 事件 ， 则 P(E) =0。 如 果 E, 是 一 定 出 现 的 
事件 ， 则 P(E,) =1。 
2) WR S 是 包含 所 有 可 能 结果 的 样本 空间 ， 则 PCS) =1。 
3) WR E, i=1, 0, za， 是 互 斥 的 ( 即 如 果 它 们 不 可 能 同时 出 现 : EOE =O, i 4 j, 
其 中 个 是 不 包含 任何 可 能 结果 的 空 事 件 ) ， 则 我 们 有 
P( U E) = XPE) (A. 1) 
例如 ， 设 E° RR E 的 补 ， 由 不 在 E 中 的 5S 中 所 有 可 能 的 结果 组 成 ,我们 有 ENE = 
Ø, HE 
P(E U E°) = P(E) + P(E°) =1 
P(E°) = 1 - P(E) 
如 果 五 和 下 的 交 非 空 ， 则 我 们 有 
P(E UF) = P(E) + P(F) -P(E N F) (A. 2) 
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A. 1.2 条 件 概率 


P(E | 了 F) 是 给 定 事件 Ff 出现 的 情况 下 ， 事件 5 出现 的 概率 ， 并 由 下 式 给 出 
P(E |F) s (A.3) 
知道 事件 下 出 现 将 样本 空间 缩小 到 下 ， 而 五 也 出 现 的 部 分 为 下 mF。 注 意 ,， 式 (A.3) 仅 
当 P(F)>0 时 才 有 定义 。 由 于 门 是 可 交换 的 ， 我 们 有 
P(E N F) = P(E|F)P(F) = P(F|E)P(E) 
由 此 得 到 贝 叶 斯 公式 (Bayes”formula ) : 
P(E | F)P(F) 





PCR EY = (A. 4) 
当 Fi HRPM, BY U F, =3 时 
È = U EQ F 
P(E) = > PEN F,) = $ P(E | FL) PCR) (A. 5) 
贝 叶 斯 公式 使 得 我 们 可 以 有 
_ P(ENF) P(E|F)P(F.,) 
PORTE) = pOE) 7 3 PCETF)PCF,) ai 
WR E Ail F fi 4% 3 th (independent) ， 则 我 们 有 P(E |F) =P(E)， 因 此 
P(E N F) = P(E)P(F) (A. 7) 


也 就 是 说 , FF 是 否 出 现 并 不 改变 E 出 现 的 概率 。 
A.2 随机 变量 


随机 变量 (random variable) 是 一 个 函数 ， 它 为 随机 试验 的 样本 空间 中 的 每 个 结果 指派 一 
个 数 。 


A. 2.1 概率 分 布 与 密度 函数 
对 于 任意 实数 值 a， 随 机 变量 X 的 概率 分 布 函 数 (probability distribution function)F(:) 是 


F(a) = PIX<al (A.8) 
并 且 我 们 有 
P\a<X <b} = F(b) - F(a) (A.9) 
如 果 式 是 离散 的 随机 变量 ， 则 
F(a) = 2 P(x) (A. 10) 


其 中 P(.) 是 概率 质量 函数 ( probability mass function), #224 P(a) =P|X =a} o WUE X ie 
续 的 随机 变量 ， 则 p(') 是 概率 密度 函数 (probability density function ) ， 使 得 
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Fla) = f pls) dx (A.11) 
A. 2.2 联合 分 布 与 密度 函数 


在 特定 的 试验 中 ， 我 们 可 能 对 两 个 或 多 个 随机 变量 之 间 的 关系 感 兴趣 ， 并 且 我 们 使 用 式 
和 了 的 联合 (joint) 概率 分 布 和 密度 函数 ， 满 足 


F(x,y) =P|X<x,Y <y} (A. 12) 
单个 边缘 (marginal) 分 布 和 密度 可 以 通过 边缘 化 来 计算 ， 即 在 自由 变量 上 求 和 : 
F(x) = P{X <x} =P|X<x,Y <œ} = F(x,0) (A. 13) 
在 离散 情况 下 ， 我 们 有 
P(X =x) = $, P(x,y;) (A. 14) 
而 在 连续 情况 下 ， 我 们 有 
px(%) = | piyay (A. 15) 
qe X Al Y f 4k éh (independent) ， 我 们 有 
p(x,y) = py(x)py(y) (A. 16) 


这 些 都 能 够 以 直截了当 的 方式 推广 到 多 于 两 个 随机 变量 的 情况 。 


A. 2.3 条 件 分 布 
当 导 和 了 是 随机 变量 时 ， 
Prly(zly) = PIX = |Y =y} = 中 2 Eyl -= Ply) (A.17) 


天 | 了 =y] E Py(y) 
A.2.4 贝 叶 斯 规则 
当 两 个 随机 变量 联合 分 布 ， 其 中 一 个 的 值 已 知 时 ， 另 一 个 取 给 定 值 的 概率 可 以 使 用 贝 叶 
斯 规则 计算 : 


P(y lx) Se P(x |y)Py(y) - P(x |y)P,(y) 
P(x) E P(x | y) Py(y) 





(A. 18) 


_ WK x 先 验 
后 验 = Iz (A. 19) 


注意 ， 分 母 通过 在 所 有 可 能 的 y 值 上 对 分 子 求 和 (或 积分 ， 如 果 y 是 连续 的 ) 得 到 。P(y | x) 
的 “形状 "取决 于 分 子 ， 分 母 作为 规范 化 因子 确保 P(y |x) 的 和 为 1。 通 过 考虑 x 提供 的 信息 ， 
贝 叶 斯 规则 使 得 我 们 将 一 个 先 验 概率 修改 为 后 验 概率 。 

贝 叶 斯 规则 反 转 依赖 性 ， 如 果 p(x |y) 已 知 ， 使 得 我 们 可 以 计算 P(y 1x)。 假 设 y 是 x 的 
“JA”, Wy 是 度 暑假 ，x 是 被 晒 黑 ， 则 p(x | 7) 是 已 知 某 人 度 暑 假 ， 他 被 晒 黑 的 概率 。 这 是 


wwaibbt.com DO00000 


H 率 论 323 











因果 (causal) (或 预测 ) 方 法 。 贝 叶 斯 规则 允许 我 们 使 用 诊断 (diagnostic ) 方法 来 计算 p(y | x) : 
即 某 人 知道 会 被 栖 黑 ， 他 去 度 署 假 的 概率 。P(7y) 是 任何 人 去 度 暑假 的 概率 ， 而 p(x) 是 任何 
人 被 晒 黑 的 概率 ， 包 括 度 暑假 和 不 度 暑 假 的 人 。 


A. 2.5 期 望 


随机 变量 的 期 望 (expectation) 、 期 望 值 (expected value ) 4514 ( mean) 4E E[ X], 是 
大 量 试验 中 X 的 平均 值 : 
LPi) 如果 XX 是 离散 的 
E[ X] -| : (A. 20) 
[xp(x) de 如 果 关 是 连续 的 
它 是 加 权 平 均 ， 其 中 每 个 值 被 * 取 该 值 的 概率 加 权 。 它 具有 如 下 性 质 (a,b eR): 
E| aX +b] = aE[X] +b 
E[X +Y] = E[X] +E Y] (A. 21) 
对 于 任意 实数 值 函 数 g(*) ， 期 望 值 是 
了 g(xi)P(x:) WRX AK 
Elg(X)] “| (A. 22) 
jg(x)p(x)dx 。 如 果 天 是 连续 的 


一 种 特例 g(x) =x", PEPE X HI n BRR, 定义 为 


E x P(x) 如 果 针 是 离散 的 
E[X"] -| : (A. 23) 
[x"p(a) dx wR X LEAH 
均值 (mean ) 42 —BTFEIFICLE wo 
A. 2.6 方差 
X # (variance) E is X 在 期 望 值 附近 的 变化 。 如 果 j = EL[X]， 则 方差 定义 为 
Var(X) = E[(X -p)?] = EL[X] -w (A.24) 
方差 是 二 阶 矩 减 去 一 阶 和 矩 的 平方 。 方 差 记 作 o ,具有 如 下 性 质 (a,b eR): 
Var(aX +b) = a’ Var(X) (A. 25) 


v Var( X) 称 作 标准 差 (standard deviation), WE go。 标准 差 具有 和 相同 的 单位 ， 并 且 比 方 
差 容 易 解 释 。 
协 方 差 (covariance) 指 示 两 个 随机 变量 之 间 的 关系 。 如 果 针 的 出 现 使 得 Y 更 可 能 出 现 ， 
则 协 方差 为 正 ; 如 果 X 的 出 现 使 得 Y 更 不 可 能 发 生 ， 则 协 方 差 为 负 ; 如 果 没 有 依赖 性 ， 则 
协 方差 为 0。 
Cov(X,Y) = E| (X - py) (¥ - py) J = EL XY] -jy (A. 26) 
其 中 mx = ELX], wy = ELY]。 一 些 其 他 性 质 是 
Cov(X,Y) = Cov(Y,X) 
Cov(X,X) = Var(X) 
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Cov(X + Z,Y) = Cov( X,Y) + Cov(Z,Y) 


Cov( > X,Y) = J Cov(X,,¥) (A. 27) 
Var(X + Y) = Var(X) + Var(Y) + 2Cov( X,Y) ( A. 28) 
Var ( LA | = ¥ Var(x,) + > È Cov, Y) (A. 29) 


WAR X A YEM, W ELXY] =ELX]ELY] =uxuy, FFA Cov( X,Y) =0。 这 样 ， 如 
RX, 是 独立 的 ， 则 





Var ( yx) = > Var(X,) (A. 30) 
相关 性 (correlation ) 是 一 个 规范 化 的 、 维 无 关 的 量 ， 其 值 总 是 在 -1 和 1 之 间 : 
Go (A.31) 
~ Var(X) Var( Y) 


A.2.7 BARES 


BEX = 1X 是 独立 的 同 分 布 的 (iid) 随机 变量 的 集合 ， 每 个 都 具有 均值 jv 和 有 限 方差 
o”。 则 对 于 任意 二 0， 
"| 


也 就 是 说 ， 随 着 NN 趋向 于 无 穷 大 ,WN 个 试验 的 平均 值 趋向 于 均值 。 
A. 3 特殊 的 随机 变量 
有 一 些 类 型 的 随机 变量 频繁 出 现 ， 因 此 对 它们 命名 。 


2 xX 





— fl 





=。 随 N 一 om (A.32) 





A. 3.1 伯 努 利 分 布 


试验 进行 ， 其 结果 或 者 "成功 ,或 者 “失败 ”"。 随 机 变量 对 是 一 个 OX1 指示 变量 ， 并 且 
对 于 成 功 结果 取 值 1!， 否 则 为 0。p 是 试验 结果 为 成 功 的 概率 。 则 


PiX=1} =p, 而 PIX=0} =1-p (A. 33) 
这 等 价 于 
P{X =i} = p'(1 —p)"",i =0,1 (A. 34) 
WR X ABA a, WWE EA Ay 2 
E[X] =p, Var(X) = p(1 -p) (A. 35) 
A. 3.2 二 项 分 布 


WRAT N 次 相同 的 、 独 立 的 伯 努 利 试验 ， 代 表 N 次 不 验 中 成 功 次 数 的 随机 变量 X 是 
二 项 分 布 的 。i 次 成 功 的 概率 为 
PIX =i} = Cyp'(1 -p)**,i =0---N (A. 36) 
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WR X FE, WUE EA A 22 
E[X] = Np, Var(X) = Np(1 - p) (A. 37) 


A. 3.3 多 项 分 布 

考虑 伯 努 利 分 布 的 推广 。 其中， 人 随机 事件 的 结果 是 KNEJ, FAA 
态 之 一 ， 每 个 具有 出 现 概 率 户 ， 其 ny P =1。 假设 做 了 WN 次 这 样 的 试验 ， 其 中 结果 i 出 现 
N, WX, WE > N,=No WN, No. ot, Ng 的 联合 分 布 是 多 项 分 布 : 


PON, Now) = NIJI A (A. 38) 
i=l . 


当 N=1 时 是 一 种 特殊 情况 : 只 做 了 一 次 试验 。 于 是 N 是 OZ1 指示 变量 ， 其 中 只 有 一 
J 1 ， 其 余 均 为 0。 式 ( A. 38) 归 约 为 


P(N',N,,*…, Nx) = I] p* (A. 39) 
A.3.4 均匀 分 布 
下 均匀 地 分 布 在 区 间 [ae，b] 上 ， 如 果 它 的 密度 函数 由 下 式 给 定 
l 
po = fiza Wasa se ab (A. 40) 
0 否则 
如 果 针 是 均匀 的 ， 则 它 的 期 望 值 和 方差 为 
_a+b _ (b-a)? 
E[X] = 7? ar(X) = T (A. 41) 


A. 3.5 正 态 (高 斯 ) DH 


X EBEK a. THEN oO 的 正 态 或 高 斯 分 布 ， 记 作 和 (jw，o”)， 如 果 它 的 密度 函数 是 
p(x) = 二 exp | S iF o <Y < 一 oo ( A. 42) 
许多 随机 现象 都 遵守 钟 形 正 态 i — Pao uN 分 布 ; 许多 自然 观测 都 可 以 
看 作 连 续 的 、 典 型 值 的 稍微 不 同 许 是 将 它 称 作 正 态 (normal ) 分 布 的 原因 。 在 
a ht io he 
68. 27% 的 值 落 在 (4 -o, wto) tf, 95.45% MIRE (uw -20, jw+20) 中 ，99.73% 
的 值 落 在 ( -3o, w+3o0) 4, EE, P| |x-p|<3o0} ~0.99, XRP, WR «<p -30 
或 + 二 +3o， 则 p(x) 二 0。2Z 是 单位 正 态 分 布 ， 即 和 NW(0,，1)( 见 图 A-1), 并 且 它 的 密度 
记 作 














pte) = (A. 43) 
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单位 正 态 分 布 Z=N (0.1) 


治本 


人 


1 i 1 
本 二 二 二 


fate ae Nei I vere te eet ee ee cea hee oa aiid 





0 1 2 3 4 5 
图 A-1 单位 正 态 分 布 Z 的 概率 密度 函数 
MU X~N(p, om) 并且 了 Y=ag+p， 则 7 了 7~ 和 (w+b，a)。 独 立 的 正 态 变量 的 和 也 
是 正 态 的 ， 其 中 由 = D m, o = oi。 WRX BN (yu, o), W 


AnH 3 (A. 44) 


这 称 作 z- 标 准 化 。 
HX, X, e, Xy 是 iid 随机 变量 ， 都 具有 均值 人 和 方差 mw 。 则 中 心 极限 定理 (central 
limit theorem) 表明 对 于 大 的 N, bta 
X +X, 十 … + Xy (A. 45) 
WEWMFN (Nu, No*). PMN, WRX ESRA, p WMA, WX ARM N MAS 
利 试验 的 和 ， 并 且 (X-Np)/ VNC -p) 是 近似 单位 正 态 的 。 
中 心 极限 定理 也 用 来 在 计算 机 上 产生 正 态 分 布 的 随机 变量 。 程 序 设计 语言 具有 一 些 子 程 


序 ， 返 回 [0，1] 上 均匀 分 布 的 ( 伪 ) 随机 数 。 当 U, 是 这 样 的 随机 变量 时 ， > U; -6 近似 于 Z。 
BEX ~N(jpy，o” )。 估 计 样 本 均值 





2y 
m = E (A. 46) 
也 是 正 态 的 ， 均 值 为 h， 而 方差 为 ao /N。 
A.3.6 卡 方 分 布 
如 果 Z, 是 独立 的 单位 正 态 随机 变量 ， 则 
Xo PePaew aL (A. 47) 
是 自由 度 为 n 的 卡 方 分 布 ， 即 X ~X,， 其 中 
E[ X] =n,Var(X) = 2n (A.48) 
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4X ~N(w, o ) 时 ,估计 样本 方差 为 








D(X - m)’ 
Se (A. 49) 
并 且 我 们 有 
(N-11) 5 RN ( A. 50) 
oC 
还 知道 m Fl S? 是 独立 的 。 
A. 3.7 分 布 
QUE Z ~ZALX ~xX, 是 独立 的 ， 则 
Z 
T = A.5 
i Ta ( 1) 
是 自由 度 为 n 的 :- 分 布 ,其 中 
E[T,] =0,n>1, Var(T,) = — ,n>2 (A. 52) 


n-2’ 
像 单 位 正 态 密度 一 样 ，t- 分 布 在 0 周围 是 对 称 的 。 随 着 n 越 来 越 大 ，i 密度 变 得 越 来 越 
像 正 态 分 布 ， 区 别 是 it- 分布 具 有 较 粗 的 尾部 ， 表 明 比 正 态 分 布 具 有 更 大 的 可 变性 。 


A. 3.8 Ft 
如 果 X, ~ 六 AVX, ~ 入 分 别 是 自由 度 为 n 和 m 的 卡 方 随机 变量 ， 则 


_ Xi/n 
"m — X,/m 





(A. 53) 
是 自由 度 为 上 和 普 的 天 分 布 ， 其 中 


2(2m +2n -4) 
RE Jam, verre.) = ee). 
[Fuel @ pum aR) a ea a 


>4 (A.54) 
A.4 参考 文献 
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Ross, S. M. 1987. Introduction to Probability and Statistics for Engineers and Scientists. New 
York: Wiley. 


ww ai bobt.com GOOO000 








526 








527 
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Si 


索引 中 标注 的 页 码 为 英文 原 书页 码 ， 与 书 中 边栏 的 页 码 一 致 


0/1 loss function(0/1 损失 肾 数 )，51 

5x2 
cross- validation ( ~ 交叉 验证 ) , 488 
cv paired F test( ~ 交叉 验证 与 配对 下 检验 ) 503 
cv paired t test( ~ 交叉 验证 与 配对 上 检验 ) 503 


A 


Active learning( 主动 学 习 ) ，360 

AdaBoost，431 

Adaptive resonance theory( 自 适应 共鸣 理论 ) 285 

Additive models( 加 法 模型 ) ，180 

Agglomerative clustering( 凝聚 聚 类 ) 157 

AIC, see Akaike’ s information criterion 参见 Akaike 
信息 准则 

Akaike’ s information criterion( Akaike 信息 准则 ) ，81 

Alignment( 比 对 ) , 324 

Analysis of variance( 方差 分 析 ) , 504 

Anchor( $), 291 

ANOVA, see Analysis of variance 参见 方差 分 析 

Approximate normal test( 近似 正 态 检 验 ) 500 

Apriori algorithm( Apriori 算法 )56 

Area under the curve( 曲线 下 方面 积 ) 491 

ART，see Adaptive resonance theory 参见 自 适应 共鸣 
理论 

Artificial neural networks( 人 工 神经 网 络 ) 233 

Association rule( 关联 规则 ) 4, 55 

Attribute( 属性 ) ，87 

Autoassociator( 自动 关联 器 ) 268 


B 
Backpropagation( 后 向 传播 ) ，250 
through time( 通过 时 间 ~ ) ，272 
Backup( 后退 ) ，456 
Backward selection( 向 后 选择 ) ，111 


Backward variable( 回 后 变量 ) 372 

Bag of words( 词 袋 ) 102, 324 

Bagging( 装 袋 ) 430 

Base-learner( 基 学 习 器 ) ，419 

Basis function( 基 郴 数 ) 211 
cooperative vs. competitive( 协作 与 竞争 ~ ) ，297 
for a kernel( 内 核 ) 352 
normalization( 规范 化 ~ ) 295 

Basket analysis( 购物 篮 分 析 ) ，55 

Batch learning( 批 学 习 ) 251 

Baum- Welch algorithm( Baum- Welch 算法 ) , 376 

Bayes’ ball ( 贝 叶 斯 球 ) , 402 

Bayes’ classifier( 贝 叶 斯 分 类 (器 ) ) 51 

Bayes’ estimator( 贝 叶 斯 估计 (器 ) ) 68 

Bayes’ rule( 贝 叶 斯 规则 ) ，49 ，521 

Bayesian information criterion( 贝 叶 斯 信息 准则 ) ，81 

Bayesian model combination( 贝 叶 斯 模型 组 合 ) ，426 

Bayesian model selection( 贝 叶 斯 模型 选择 ) ，82 

Bayesian network( 贝 叶 斯 网 络 ) ，387 

Belief networks( 信念 网 络 ) ，387 

Belief state( 信任 状态 ) ，465 

Bellman’ s equation( Bellman 公式 ) ，452 

Beta distribution( 贝塔 分 布 ) 345 

Between-class scatter matrix( 类 间 散 布 矩 阵 ) 130 

Bias( tF), 65 

Bias unit( 偏 倚 单 元 ) ，238 

Bias/variance dilemma( 偏 倚 / 方 差 两 难 )，78 

BIC, see Bayesian information criterion 参见 贝 叶 斯 信 
息 准则 

Binary split( 二 元 划分 ) ，187 

Binding( 绑 定 ) ，202 

Binomial test( 二 项 检验 ) , 499 

Biometrics( 生物 测定 学 ) 441 

Blocking( PHZ) ，482 

Bonferroni correction( Bonferroni 校正 ) , 508 
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Boosting ( 提升 ) 431 
Bootstrap( 自助 法 ) 489 


C 


C4.5, 191 
C4. 5Rules( C4. 5 规则 ) ，197 
CART, 191, 203 
Cascade correlation( 级 联 相 关 ) , 264 
Cascading( 级 联 ) ，438 
Case- based reasoning( 基于 案例 的 推理 ) ，180 
Causality( 因果 关系 ) ，396 
causal graph( 因果 图 ) ，388 
Central limit theorem( 中 心 极 限定 理 ) 526 
Class( 类 ) 
confusion matrix( ~ 混淆 矩阵) 493 
likelihood( ~ 似 然 ) 50 
Classification( 分 类 ) , 5 
likelihood- vs. discriminant-based( 基于 似 然 与 基于 
判别 式 的 ~ ) ，209 
Classification tree( 分 类 树 ) ，188 
Clique( 团 ) 411 
Cluster( $), 144 
Clustering( RÆ), 11 
agglomerative ( 凝聚 ~ ) 157 
divisive ( 分裂 ~ ) 157 
hierarchical ( 层次 ~ ) 157 
online ( 在 线 ~ ) 281 
Code word( 码 字 ) ，146 
Codebook vector( 编码 本 向 量 ) 146 
Coefficient of determination ( of regression ) ( 回归 判别 
式 的 系数 ) 76 
Color quantization( 颜色 量化 ) ，145 
Common principal components( 公共 主 成 分 ) 119 
Competitive basis functions( RIERA) , 297 
Competitive learning ( 竞争 学 习 ) , 280 
Complete- link clustering( 全 链接 聚 类 ) , 158 
Component density ( 支 密度 ) 144 
Compression( 压缩 ) 8, 146 
Condensed nearest neighbor ( 精简 的 最 近邻 ) 173 
Confidence interval ( 置信 区 间 ) 
one-sided( 单 侧 ~ ) ，495 
two-sided( 双 侧 ~ ) ，494 





Confidence of an association rule (关联 规则 的 置信 
Æ), 55 

Conjugate prior( SESE FCN) 344 

Connection weight ( 连接 权重 ) , 237 

Contingency table( 列 联 表 ) , 501 

Correlation( #43), 89 

Cost- sensitive learning ( 代价 敏感 学 习 ) , 478 

Coupled HMM ( 耦合 的 HMM )400 

Covariance function( 协 方差 函数 )358 

Covariance matrix( 协 方差 矩阵 ) ，88 

Credit assignment( 信和 度 分 配 ) ，448 

Critic( 批 评 者 ) ，447 

CRM, see Customer relationship management 参见 客 
户 关系 管理 

Cross- entropy ( T. ) , 221 

Cross- validation ( 交叉 验证 ) ，40，80，486 
5x2(5x2~), 488 
K-fold( K- $f ~), 487 

Curse of dimensionality ( 维 ( 度 ) XXE), 160 

Customer relationship management( 客户 关系 管理 ) 155 

Customer segmentation( 客户 段 ) 155 


D 


d-seperation( d- 分离) 402 
Decision node( 决策 节点 ) ，185 
Decision region( 决策 区 域 ) 53 
Decision tree( 决策 树 ) 185 
multivariate ，( 多 元 ~ )202 
omnivariate( 杂 变 量 ~ ) 205 
soft( 软 ~ ) 305 
univariate ( 单 变量 ~), 187 
Delve repository( Delve 知识 库 ) , 17 
Dendrogram( 系统 树 图 ) , 158 
Density estimation( 密度 估计 ) ，11 
Dichotomizer( 两 分 器 ) 53 
Diffusion kernel( 扩散 核 ) 325 
Dimensionajity reduction( 维度 归 约 ) 
nonlinear( 非 线 性 ~ ) ，269 
Directed acyclic graph( 有 向 无 环 图 ) 387 
Dirichlet distribution( žk 里 克 雷 分 布 ) 344 
Discount rate( 折扣 率 ) 451 
Discriminant( 判别 式 ) ，5 
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function( ~ 图 数 ) 53 
linear( 线 性 ~ ) ，97 
quadratic( 二 次 ~ ) 95 
Discriminant adaptive nearest neighbor( 判别 式 自 适应 
最 近邻 ) ，172 
Discriminant- based classification (基于 判别 式 的 分 
类 ) ，209 
Distributed vs. local representation ( 分 布 的 与 局 部 的 
表示 ) ，156，287 
Diversity( 多 样 性 )420 
Divisive clustering( 分 裂 聚 类 ) , 157 
Document categorization( 文档 分 类 ) 102 
Doubt( 不 确定 (实例 ) ) 26 
Dual representation( 对 偶 表 示 ) ，337 ，352 
Dynamic classifier selection( 动态 分 类 器 选择 ) ，435 
Dynamic node creation( 动态 节点 创建 ) 264 
Dynamic programming( 动态 规划 ) ，453 


E 


Early stopping( 提前 终止 ) 223, 258 

ECOC ，see Error- correcting output codes 参见 纠 错 输 
出 码 

Edit distance( 编辑 距离 ) 324 

Eigendigits( 特征 数字 ) 118 

Eigenfaces( 特征 面孔 ) 118 

Eligibility trace( 资格 迹 ) ，459 

EM, see Expectation- Maximization 参见 期 望 最 大 化 

Emission probability( 发 射 概 率 ) 367 

Empirical error( 经 验 误 差 ) 24 

Ensemble( 系 综 ) ，424 

Entropy ( $), 188 

Episode( 片段 ) 451 

Epoch( 周 期) 251 

Error( 误差 ， 错 误 ) 
type I( 第 一 类 ~ ) 497 
type I( 第 二 类 ~), 497 

Error- correcting output codes ( 纠 错 输出 码 ) 427 

Euclidean distance ( EK EG RB BS) , 98 

Evidence( 证 据 ) 50 

Example( 实例 ) ，87 

Expectation- Maximization( 期 望 最 大 化 ) 150 
supervised( 监督 的 ~ ) ，299 





Expected error rate( 期 望 误 差 率 ) 476 
Expected utility( 期 望 效用 ) , 54 
Experiment( 实验 ) 

design( ~ 设计 ) , 478 

factorial( ~ 因素 )481 

strategies( ~ 策略 )480 
Explaining away( 解释 远离 ) ，50 
Extrapolation( 外 推 ) 29 


F 


FA, see Factor analysis 参见 因素 分 析 
Factor analysis ( 因素 分 析 ) , 120 
Factor graph( 因素 图 ) 412 
Factorial HMM( 因素 HMM) 400 
Feature( 特征 ) ，87 
extraction( ~ 提取 ) ，110 
selection( ~ 选择) 110 
Finite-horizon( 有 限 视野 ) ，451 
First-order rule( 一 阶 规则 ) ，201 
Fisher’ s linear discriminant( 费 希 尔 线性 判别 式 ) 129 
Flexible discriminant analysis( 柔性 判别 式 分 析 ) 120 
Floating search( 浮动 搜索 ) ，112 
Foil( Foil 算法 ) ，199 
Forward selection( 向 前 选择 )，110 
Forward variable( 正 向 变量 ) ，370 
Forward- backward procedure( 正 反 向 过 程 )，370 
Fuzzy k-means( 模糊 上 均值) 160 
Fuzzy membership function( 模糊 隶属 函数 ) ，295 
Fuzzy rule( 模糊 规则 ) ，295 


G 


Gamma distribution( 伽 马 分 布 ) ，347 
Gamma function ( 伽 马 函数 )344 
Gaussian prior( 高 斯 先 验 ) 349 
Generalization( 推广 ， 泛 化 ) 24, 39 
Generalized linear models( 广义 线性 模型 ) ，230 
Generative model( 生成 模型 )342 397 
Cenerative topographic mapping( 生成 拓扑 映射 ) ，306 
Geodesic distance ( 测 地 距离 ) 133 
Gini index( 基 尼 指 数 ) 189 
Gradient descent( 梯度 下 降 ) ，219 

stochastic( 随机 ~ ) 241 
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Gradient vector ( 梯度 向 量 ) , 219 

Gram matrix( Gram 和 矩阵) 321 

Graphical models ( 图 模型 ) 387 

Group( 分 组 ) 144 

GTM, see Generative topographic mapping 参见 生成 


拓扑 映射 
H 


Hamming distance( 汉 明 距离 ) 171 

Hebbian learning( Hebbian 学 习 ) , 283 

Hidden layer( 隐藏 层 ) ，246 

Hidden Markov model( 隐 马 尔 可 夫 模 型 ) 367, 398 
coupled( 耦合 ~ ) 400 
factorial( 因子 ~ ) ，400 
input-output( 输入 -输出 ~ ) ，379 ，400 
left-to-right( 自 左 向 右 ~), 380 
switching( 开关 ~ ) ，400 

Hidden variables( 隐藏 变量 )，57，396 

Hierarchical clustering( 层次 聚 类 ) , 157 

Hierarchical cone( 层次 锥 体 ) ，260 

Hierarchical mixture of experts( 层 次 混合 专家 模 
型 ) 304 

Higher- order term( 高 阶 项 ) 211 

Hinge loss( Hinge 损失 ) ，317 

Hint( 线索 ) 261 

Histogram( 直方 图 ) ，165 

HMM, see Hidden Markov model 参见 隐 马 尔 可 去 
模型 

Hybrid learning 混合 学 习 ) 291 

Hypothesis( 假设 ) ，23 
class( ~ 类 ) , 23 
most general ( 最 一 般 的 ~ ) 24 
most specific( 最 特殊 的 ~ ) 24 

Hypothesis testing( 假设 检验 ) ，496 


ID3(ID3 算法 ) 191 

IF-THEN rules(IF-THEN 规则 ) ，197 

lid( independent and identically distributed ) ( 独立 同 
分 布 ) 41 

Ill- posed( 不 适 定 的 ) ，38 

Impurity measure( 不 纯度 度量 ) 188 


Imputation( 派 算 ) ，89 

Independence( 独立 性 ) ，388 

Inductive bias( 归纳 偏 倚 ) 38 

Inductive logic programming (归纳 逻辑 程序 设 
计 ) 202 

Infinite-horizon( 无 限 视野 ) ，451 

Influence diagrams( 影响 图 ) 414 

Information retrieval ( 信息 检索 ) 491 

Initial probability( 初始 概率 ) ，364 

Input( 输 入 ) ，87 

Input representation( 输入 表示 ) ，21 

Input-output HMM( 输 入 -输出 HMM) 379, 399 

Instance( 实例 ) ，87 

Instance- based learning( 基于 实例 的 学 习 ) 164 

Interest of an association rule (关联 规则 的 兴趣 
度 ) ，55 

Interpolation( 插值 ) ，35 

Interpretability( 可 解释 性 ) ，197 

Interval estimation( 区 间 估 计 )，493 

Irep( Irep( 算 法 ))，199 

Isometric feature mapping( 等 距 特征 映射 ) 133 


J 


Job shop scheduling( 作业 车 间 调 度 ) 471 
Junction tree( 结 树 ) 410 


K 


K-armed bandit( 天 臂 赌博 机 ) ，449 
K-fold( K- ff) 
cross-validation( ~ 交叉 验证 ) , 487 
cv paired t test( ~ 交叉 验证 与 配对 上 检验 ) 502 
k-means clustering( 上 -均值 聚 类 ) 147 
fuzzy( 模 糊 ~ ) 172 
online( 在线 ~ ) ，281 
k-nearest neighbor( 上 -最 近邻 ) 
classifier( ~ 分 类 ) ，172 
density estimate( ~ 估计 ) ，169 
smoother( ~ 光滑 ) ，177 
k-nn, see k-nearest neighbor 参见 -最 近邻 
Kalman filter( Kalman 722) , 400 
Karhunen- Loéve expansion ( Karhunen- Loéve 展 
FF), 119 
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Kernel estimator( 核 估计 ) , 167 

Kernel function( {pH 3X) , 167, 320, 353 
Kernel PCA( #% PCA), 336 

Kernel smoother( 核 光 滑 ) , 176 

Knowledge extraction( 知识 提取 ) , 8, 198, 295 
Kolmogorov complexity ( Kolmogorov 复杂 度 ) , 82 
Kruskal- Wallis test( Kruskal-Wallis 检验 ) 511 


L 


Laplace approximation ( 拉 普 拉 斯 近似 ) ，354 

Laplace prior( 拉 普 拉 斯 先 验 ) 350 

Lasso, 352 

Latent factors ( 潜在 因子 ) 120 

Lateral inhibition( 横向 抑制 ) ，282 

LDA, see Linear discriminant analysis 参见 线性 判别 
分 析 

Leader cluster algorithm( 领导 者 聚 类 算法 ) 147 

Leaf node( 叶 节 点 ) 186 

Learning automata( 学 习 上 自动 机 ) 471 

Learning vector quantization( 学 习 疝 量 量 化 ) 300 

Least squares difference test( 最 小 方差 检验 ) 507 

Leave-one-out( 留 一 ) 487 

Least squares estimate( 最 小 方差 估计 ) ，74 

Left-to-right HMM( 自 左 向 右 HMM), 380 

Level of significance( 显著 水 平 ) 497 

Levels of analysis( 分 析 层 面 ) 234 

Lift of an association rule( 关联 规则 的 提升 度 ) 55 

Likelihood( 似 然 ) ，62 

Likelihood ratio( 似 然 率 ) ，58 

Likelihood- based classification (基于 似 然 的 分 
3), 209 

Linear classifier( 线 性 分 类 器 ) , 97, 210 

Linear discriminant( 线性 判别 式 ) 97, 210 

Linear discriminant analysis( 线性 判别 分 析 ) ，128 

Linear dynamical system( 线性 动态 系统 ) ，400 

Linear opinion pool( 线性 判断 组 合 ) 424 

Linear regression( 线性 回归 ) ，74 
multivariate( 多 元 ~ ) 103 

Linear separability( 线性 可 分 性 ) ，215 

Local representation( 局 部 表示 ) ，288 

Locally linear embedding( 局 部 线性 宜人 入 ) ，135 

Locally weighted running line smoother( 局 部 加 权 移 动 


线性 光滑 )，177 

Loess, see Locally weighted running line smoother 参见 
局 部 加 权 移 动 线性 光滑 

Log likelihood( 对 数 似 然 ) ，62 

Log odds( 对 数 几率 ) ，58 218 

Logistic discrimination ( 逻辑 斯 详 判 别 式 ) 220 

Logistic function( 逻辑 斯 诺 函 数 ) 218 

Logit( 分 对 数 ) 218 

Loss function( ti PR) , 51 

LVQ, see Learning vector quantization 参见 学 习 向 量 
量化 


M 


Mahalanobis distance( 马 氏 距离 )，90 
Margin( WR), 25, 311, 433 
Markov decision process ( 马尔 可 夫 决 策 过 程 ) 451 
Markov mixture of experts ( 马尔 可 夫 混 合 专家 模 
型 ) ，379 
Markov model( 马尔 可 夫 模 型 ) 364 
hidden( fä ~ ) ，367 
learning( 学习 ~ )，366，375 
observable( 可 观测 的 ~ ) ，365 
Maximum a posteriori ( MAP) estimate ( 最 大 化 后 验 佑 
it), 68, 343 
Maximum likelihood estimation( 最 大 似 然 估计 ) , 62 
McNemar’ s test( McNemar 检验 ) 501 
MDP, see Markov decision process 参见 马尔 可 夫 决 策 
过 程 
MDS, see Multidimensional scaling 参见 多 维 定 标 
Mean square error( 均 方 误差 ) 65 
Mean vector( 均值 向 量 ) ，88 
Memory- based learning( 基于 记忆 的 学 习 ) ，164 
Minimum description length( 最 大 描述 长 度 ) 82 
Mixture components( 混合 分 支 ) 144 
Mixture density( 混合 密度 ) ，144 
Mixture of experts( 混合 专家 模型 ) 301, 434 
competitive( 竞争 的 ~ ) ，304 
cooperative( 协作 的 ~ ) ，303 
hierarchical( 层次 的 ~ ) 305 
Markov( 马尔 可 夫 ~), 379, 400 
Mixture of factor analyzers( 混合 因子 分 析 方 法 ) ，155 
Mixture of mixtures( 混合 的 混合 (密度 ) ) 156 
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Mixture of probabilistic principal component analyzers 
(混合 概率 主 成 分 分 析 ) , 155 
Mixture proportion( 混合 比例 ) ，144 
MLE, see Maximum likelihood estimation 参见 最 大 似 
然 估 计 
Model combination( 模型 组 合 ) 
multiexpert( 多 专家 ~ ) ，423 
multistage( 多 级 ~ ) ，423 
Model selection ( 模型 选择 ) 38 
MoE, see Mixture of experts 参见 混合 专家 模型 
Momentum ( 动量 ) , 257 
Moralization( 教化 ) , 411 
Multidimensional scaling( 多 维 定 标 ) , 125 
nonlinear( 非 线 性 ~ ) ，287 
using MLP( 使 用 MLP ~ ) 269 
Multilayer perceptrons( 多 层 感 知 器 ) ，246 
Multiple comparisons( 多 重 比较 ) ，507 
Multivariate linear regression( 多 元 线性 回归 ) ，103 
Multivariate polynomial regression ( 多 元 多 项 式 回 
H), 104 
Multivariate tree( 多 变量 /元 树 ) 202 


N 


Naive Bayes’ classifier( 朴素 贝 叶 斯 分 类 ) ，397 
discrete input( 离散 输入 ~ ) ，102 
numeric input( 数值 输入 ~ ) ，97 

Naive estimator( 朴素 估计 ) ，166 

Nearest mean classifier( 最 近 均 值 分 类 (器 ) ) 98 

Nearest neighbor classifier( 最 近邻 分 类 (器 ) ) ，166 
condensed( 精简 的 ~ ) 173 

Negative examples( 负 实 例 ) 21 

Neuron( 神经 元 ) ，233 

No Free Lunch Theorem (没有 免费 的 午餐 法 
则 ) ，477 

Noisy OR( 噪声 或 ) 109 

Noise ( IRS), 30 

Nonparametric estimation( 非 参 数 估 计 ) , 163 

Nonparametric testing( 非 参数 检验 ) ，508 

Null hypothesis( 原 假设 ) ，497 


O 


Observable Markov model (可 观测 的 马尔 可 夫 模 


型 ) ，365 

Observable variable( 可 观测 变量 ) ，48 

Observation( 观测 ) ，87 

Observation probability( 观测 概率 ) ，367 

OC1 ( OCI( # HE) ) , 203 

Occam’ s razor( 奥 克 姆 剃刀 ) , 32 

Off- policy( 无 策略 ) , 457 

Omnivariate decision tree( 杂 变 量 决 策 树 ) 205 

On-policy( 有 策略 ) ，458 

One- sided confidence interval ( 单 侧 置信 区 间 ) ，495 

One-sided test( 单 侧 检验 ) ，498 

Online k-means( 在 线 -均值 )，281 

Online learning( 在 线 学 习 ) ，241 

Optimal policy( 最 优 策略 ) 452 

Optimal separating hyperplane (最 佳 分 离 超 平 
mi), 311 

Outlier detection ( 离 群 点 检测 ) 9, 333 

Overfitting( 过 (分 ) 拟 合 ) 39, 79 

Overtraining( 过 (分 ) 训 练 ) ，258 


P 


PAC, see Probably Approximately Correct 参见 或 然 近 
似 正确 

Paired test( 配对 检验 ) 501 

Pairwise separation( 逐 对 分 离 ) 216, 428 

Parallel processing( 并 行 处 理 ) ，236 

Partially observable Markov decision process( 部 分 可 观 
测 的 马尔 可 夫 决 策 过 程 ) 464 

Parzen windows( Parzen 窗口 ) 167 

Pattern recognition( 模式 识别 ) 6 

PCA, see Principal components analysis 参见 主 成 分 
分 析 

Pedigree ( 家谱 )400 

Perceptron ( 感知 器 ) ，237 

Phone( 音素 ) 381 

Piecewise approximation( 分 段 近似 ) 
constant( 常量 ~ ) 248, 300 
linear( 线 性 ~ ) ，301 

Policy ( 策略) ，451 

Polychotomizer( 多 分 器 ) ，53 

Polynomial regression( 多 项 式 回 归 ) ，75 
multivariate( 多 元 ~ ) ，104 
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Polytree( 多 树 ) , 407 

POMDP, see Partially observable Markov decision 
process 参见 部 分 可 观测 的 马尔 可 夫 决 策 过 程 

Positive examples( 正 实例 ) 21 

Posterior Probability distribution (后 验 概率 分 
布 ) ，341 

Posterior probability of a class( 类 后 验 概率 ) 50 

Posterior probability of a parameter (参数 的 后 验 概 
率 ) 67 

Postpruning( 后 剪 枝 ) 194 

Potential function( 势 函 数 ) 212, 411 

Power function( 功效 函数 ) ，498 

Predicate( 谓词 ) ，201 

Prediction( 预测 )，5 

Prepruning( 先 剪 枝 ) ，194 

Principal components analysis( 主 成 分 分 析 ) ，113 

Prior knowledge ( 先 验 知识 ) ，294 

Prior probability distribution( 先 验 概 率 分 布 ) ，341 

Prior probability of a class( 类 先 验 概率 ) ，50 

Prior probability of a parameter( 参数 先 验 概率 ) ，67 

Probabilistic networks( 概率 网 络 ) ，387 

Probabilistic PCA( 概率 PCA) 123 

Probably approximately correct learning( 概率 近似 正确 
学 习 ), 29 

Probit function ( 概率 单位 函数 )355 

Product term( 乘积 项 ) 211 

Projection pursuit( 投影 追踪 ) 274 

Proportion of variance( 方 差 比例 ) 116 

Propositional rule( 命题 规则 ) ，201 

Pruning( 剪 枝 ) 
postpruning( 后 ~ ) ，194 
prepruning( 先 ~ ) 194 
set( ~ 42), 194 


Q 


Q learning( Q 学 习 ) 458 
Quadratic discriminant( 二 次 判别 式 ) 95, 211 
Quantization( 量化 ) ，146 


R 


Radial basis function ( 4 [tj KERR AL) , 290 
Random subspace ( 随机 子 空 间 ) , 421 


Randomization( 随机 化 ) , 482 
RBF, see Radial basis function 4 14% [iy] SE PA% 
Real time recurrent learning( 实 时 递归 学 习 ) , 272 
Recall( 召回 ) ，492 
Receiver operating characteristics ( 接受 者 操作 曲 
线 ) ，490 
Receptive field( 接收 域 ) ，288 
Reconstruction error( 重 构 误 差 ) 119, 146 
Recurrent network ( 递归 网 络 )，271 
Reference vector( 参考 向 量 ) 164 
Regression( 回归 ) 9, 35 
linear( 线性 ~ ) 74 
polynomial( 多 项 式 ~ ) ，75 
polynomial multivariate( 多 项 式 多 元 ~ ) 104 
robust( 鲁 棒 的 ~ ) ，329 
Regression tree( 回归 树 ) 192 
Regressogram( 回归 图 ) ，175 
Regularization( 正则 化 ) ，80 ，266 
Regularized discriminant analysis (正则 线性 判别 分 
析 ) ，100 
Reinforcement learning( 增 强 学 习 ) ，13 
Reject( 拒绝 ) ，34，52 
Relative square error( 相对 平方 误差 ) 76 
Replication( 复制 ) ，482 
Representation( 表示 ) ，21 
distributed vs. local ( 分布 与 局 部 ~ ) 288 
Ridge regression( 岭 回归 ) ，266，350 
Ripper( Ripper 算法 ) ，199 
Risk function( 风险 函数 ) ，51 
Robust regression( 鲁 棒 的 回归 ) 329 
ROC, see Receiver operating characteristics 参见 接受 
者 操作 曲线 
RSE, see Relative square error 参见 相对 平方 误差 
Rule( 规则 ) 
extraction( ~ 提取 ) ，295 
induction( ~ 归纳 ) ，198 
pruning( ~ 剪 枝 ) 198 
Rule support ( 规则 的 支持 度 ) ，198 
Rule value metric( 规则 价值 度量 ) 199 
Running smoother( 移动 光滑 ) 
line( 线 性 ~ ) ，177 
mean( 均值 ~ ) 175 
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S 


Sammon mapping( Sammon RAY) , 128 
using MLP( 使 用 MLP ~ ) , 269 
Sammon stress( Sammon 应 力 ) 128 
Sample( 样本) ，48 
correlation( ~ 相关 性 ) ，89 
covariance( ~ 协 方差 ) 89 
mean( ~ 均值 ) 89 
Sarsa( Sarsa( 算 法) ) 458 
Sarsa( 入 ) (Sarsa( 入 ) ，( 算 法 ) ) 461 
Scatter( 散布 ) ，129 
Scree graph( 斜坡 图 ) 116 
Self- organizing map( 自 组 织 上 映射 ) 286 
Semiparametric density estimation ( 半 人 参数 密度 估 
iF), 144 
Sensitivity ( 灵敏 性 ) ，493 
Sensor fusion ( 传感器 融合 ) 421 
Sequential covering( IMF m), 199 
Sigmoid( S JÉ) , 218 
Sign test( 符号 检验 ) 509 
Single- link clustering( 单 链接 聚 类 ) ，157 
Slack variable( 松弛 变量 ) ，315 
Smoother( 光滑 子 / 方 法 ) 174 
Smoothing splines( 光滑 样 条 ) ，178 
Soft count( 软 计数 ) ，376 
Soft error( 软 误差 ) ，315 
Soft weight sharing ( 软 权重 共享 ) 267 
Softmax( 软 最 大 ) ，224 
SOM, see Self- organizing map 参见 自 组 织 映射 
Spam filtering( 垃圾 邮件 过 滤 ) ，103 
Specificity( 特效 性 ) ，493 
Spectral decomposition ( 谱 分 解 ) 115 
Speech recognition ( 语音 识别 ) ，380 
Sphere node( 球 形 节 点 ) 203 
Stability- plasticity dilemma (稳定 性 - 可 塑性 两 难 选 
择 ) 281 
Stacked generalization( 层 一 泛 化 )，435 
Statlib repository( Statlib 知识 库 ) ，17 
Stochastic automaton ( 随机 自动 机 ) , 364 
Stochastic gradient descent( 随机 梯度 下 降 ) ，241 
Stratification( 分 层 ) ，487 


Strong learner( 强 学 习 器 ) 431 

Structural adaptation( 结构 自 适 应 ) 263 

Structural risk minimization( 结构 风险 最 小 化 ) 82 
Subset selection( 子 集 选 择 ) 110 

Sum- product algorithm( 和 - 积 算法 ) 412 
Supervised learning( 监督 学 习 ) 9 

Support of an association rule( 关联 规则 的 支持 度 ) , 55 
Support vector machine( 支持 向 量 机 ) , 313 

SVM, see Support vector machine 参见 支持 向 量 机 
Switching HMM( 开关 HMM) ，400 

Synapse ( 突 触 ) ，234 

Synaptic weight( 突 触 权重 ) ，237 


T 


t distribution(z 分 布 ) 495 
t test(t 检验 ) 498 
Tangent prop( 正切 支撑 ) 263 
TD, see Temporal difference 参见 时 间 差 分 
Template matching( 模板 匹配 ) ，98 
Temporal difference( 时 间 差 分 ) ，455 
learning( ~ 学习) 458 
TD(0)(TD(0)( 算 法 ) ) ，459 
TD-Gammon( TD- Gammon ( 算法 ) ) 471 
Test set( 检验 集 ) 40 
Threshold ( ffi) , 212 
function( ~ 函数 ) 238 
Time delay neural network ( 时 间 延 迟 神经 网 络 ) ，270 
Topographical map( 地 形 图 ) ，287 
Transition probability ( 转移 概率 ) ，364 
Traveling salesman problem( 旅行 商 问 题 ) ，306 
Triple trade-off( 三 元 权衡 ) ，39 
Tukeys test(Tukey 检验 ) 512 
Two-sided confidence interval ( 双 侧 置信 区 间 ) ，494 
Two-sided test( 双 侧 检验 ) ，497 
Type 2 maximum likelihood procedure (2 型 最 大 似 然 
过 程 ) 360 
Type I error( 第 一 类 误差 ) 497 
Type II error( 第 二 类 误差 )，497 


U 


UCI repository( UCI 知识 库 ) 17 
Unbiased estimator( 无 偏 估 计 )，65 
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Underfitting( RWA), 39, 79 

Unfolding in time( 按 时 间 展 开 ) , 272 

Unit normal distribution( 单位 正 态 分 布 ) ，493 
Univariate tree( 单 变量 树 ) ，187 

Universal approximation ( 普 适 近似 ) , 248 
Unobservable variable( 不 可 观测 的 变量 ) ，48 
Unstable algorithm( 不 稳定 算法 ) 430 

Utility function( 效 用 函数 ) , 54 

Utility theory( 效用 理论 ) ，54 


V 


Validation set( 验证 集 ) ，40 
Value iteration( 价值 迭代 ) ，453 
Value of information( 信息 价值 ) ，464 ，469 


Vapnik- Chervonenkis( VC) dimension( VC 维 ) ，27 


Variance( Jy #2) , 66 

Vector quantization ( 问 量 量化 ) , 146 
supervised ( 监督 的 ~ ), 300 

Version space ( 解 空间 ) , 24 

Vigilance( 警戒 值 ) 285 





Virtual example( 虚拟 实例 ) ，262 
Viterbi algorithm( Viterbi 算法 ) ，374 
Voronoi tesselation( Voronoi 图 ) 172 


Voting( 投票 表决 ) 424 
W 


Weak learner( 弱 学 习 器 ) 431 
Weight( 权重 ) 

decay( ~ 衰减) 263 

sharing( ~ 共享) 260 

sharing soft( 共享 软 ~ ) ，267 

vector( ~ 向量) 212 
Winner-take-all( 胜 者 全 取 ) ，280 


dl 


Within- class scatter matrix ( 类 内 散布 矩阵 ) 130 


Wrappers ( 包装 ) ，138 


Z 


z, see Unit normal distribution 参见 单位 正 态 分 布 


z- normalization ( z- 规 范 化 ) 91, 526 
Zero-one loss(0-1 损失 ) 51 
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Introduction to Machine Learning second Edition 


机 器 学 习 的 目标 是 对 计算 机 编程 ， 以 便 使 用 样本 数据 或 以 往 的 经 验 来 解决 给 定 的 问题 。 机 器 学 习 已 
经 有 许多 成 功 应 用 ， 包 括 分 析 以 往 销 售 数据 来 预测 客户 行为 7 优化 机 器 人 的 行为 以 便 使 用 最 少 的 资源 来 
完成 任务 ， 以 及 从 生物 信息 数据 中 提取 知识 的 各 种 系统 。 本 书 是 关于 机 器 学 习 这 一 主题 内 容 全 面 的 教科 
B, 涵盖 了 通常 在 机 器 学 习 导 论 中 并 不 包括 的 广泛 题材 。 为 了 对 机 器 学 习 问 题 和 解 进行 统一 的 论述 ， 本 
书 讨论 了 源 自 不 同 领域 的 多 种 方法 ， 包 括 统 计 学 、 模 式 识 别 、 神 经 网 络 、 人 工 智 能 、 信 号 处 理 、 控 制 和 
数据 挖 据 。 书 中 对 所 有 学 习 算 法 都 进行 了 解释 ， 以 便 读 者 可 以 轻易 地 将 书 中 的 公式 转变 为 计算 机 程序 。 
本 书 可 用 作 高 年 级 本 科 生 或 硕士 研究 生 的 教材 ， 也 可 作为 关注 机 器 学 习 方 法 应 用 的 专业 人 员 的 参考 书 。 


第 2 版 新 增 内 容 
e@ 各 章 都 进行 了 改写 和 更 新 ， 新 增 了 核 机 器 ( 第 13 章 ) 、 贝 叶 斯 估计 ( 第 14 章 ) 和 图 模型 ( 第 16 
章 ) 内 容 。 
e 在 机 器 学 习 实 验 的 设计 和 分 析 一 章 ( 第 19 章 ) 中 扩展 了 统计 检验 的 内 容 。 
e 在 本 书 配套 网 站 ( http://www.cmpe.boun.edu.tr/~ethem/i2mi2e/ ) 上 提供 了 PPT、 勘 误 等 。 
e 增加 了 一 些 习题 。 
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